1.什么是不确定性?
我们的许多统计数据依赖于从调查中收集的数据。我们通常对人群或企业的整体特征感兴趣,但通常只调查人群的样本,而不是每个人。这种方法更及时,成本效益更高,而且如果样本足够大且设计良好,可以得出准确的统计数据。
使用样本意味着我们的统计数据通常伴随着不确定性的度量。不确定性涉及估计值与“真实值”之间可能存在的差异,这些测量方法有助于国家统计局统计数据的使用者了解对输出的置信程度。这些不确定性指标包括:
标准错误
置信区间
变异系数
统计显著性
理解抽样及其对统计的影响对于解释这些不确定性度量也很重要。
回到目录2.对人口进行抽样
抽样包括选择一个总体的子集,从中可以估计整个总体的特征。调查一个样本而不是整个人口更具有成本效益,并且可以更快地发布数据和发现。
信息不是从整个人口中收集的,所以抽样调查的结果是对未知人口值的估计。随机选择一个样本,但可以选择其他潜在的样本,这可能会产生不同的结果。
来自样本的统计量与总体值之间的差异是由所谓的抽样误差和非抽样误差引起的。
抽样误差
抽样误差是由于使用总体的一个样本,而不是整个总体。来自样本的估计值可能与未知总体值不同,因为只有总体的一个子集提供了信息。使用科学方法设计样本可以帮助最小化抽样误差,并创建精确和无偏倚的估计。
的标准错误,变异系数而且置信区间可以用来帮助解释可能的抽样误差,当然,这是未知的。标准误差对于解释人口估计随时间的变化很重要。测试统计显著性可以用来确定来自不同样本的估计之间的差异是由总体的真实变化引起的,还是仅仅因为随机抽样的影响。
Non-sampling错误
其他误差来源被称为非抽样误差。这些包括:
无法联系到企业或个人
企业或个人拒绝回应
受访者回答不准确
处理或分析错误
即使对整个人口进行了调查,这些错误也会出现在统计数据中。例如,对一个关于花在燃料上的钱的问题的不准确回答,即使对整个人口进行了调查,也会导致估算值与人口值之间的差异。这些误差通常很难量化,因此需要进行额外和具体的研究。
回到目录3.标准错误
标准误差是衡量基于调查的估计有多精确的最简单方法。
标准误差可以作为指导,帮助解释可能的抽样误差。它显示了基于样本数据的估计值可能与从整个总体中获得的值有多接近。它使用与估计本身相同的单位进行测量,一般来说,标准误差越接近零,估计就越精确。数值越小,精度越高。
标准误差也是基于样本数据,因此是一个未知的统计量,通常是自己估计的。
例子:
非金融企业经济估计来自年度商业调查。不同行业估计的标准误差用于评估总营业额估计的精确程度。对教育、水和废物管理的估计大小不同,标准误差也不同。然而,相对标准误差显示它们具有相似的相对精度水平(表1)。
总营业额 | 的标准错误 | 相对标准误差(或变异系数)² | |
---|---|---|---|
£数百万¹ | £数百万² | ||
行业1:教育(仅限私立学校) | 42649年 | 526.8 | 0.01(或1%) |
行业2:供水;污水收集、废物管理及修复活动 | 34677年 | 222.7 | 0.01(或1%) |
下载此表格表1:教育、水和废物管理的总营业额估计、标准误差和相对标准误差,英国,2016
xls . csv注:
回到目录4.变异系数
变异系数使我们更容易理解标准误差与估计本身相比是否大。
变异系数(CV)用于比较各调查(或变量)的相对精度,通常以百分比表示。它是一个无单位的量,因此允许我们用不同的测量尺度来比较估计值。它也被称为相对标准误差,通过将估计的标准误差除以估计本身来计算。
与标准误差相似,变异系数越接近零,估计越精确。当它高于50%时,估计是非常不精确的,估计周围的置信区间将有效地包含零。
变异系数不应用于接近于零的值的估计或百分比。
例子:
2016年,英国抹灰业务的总营业额估计为23.22亿英镑,标准误差为2.01亿英镑。另一项调查估计,2016年英国从事农业、林业和渔业的全职员工总数为15.5万人,标准误差为1.24万人
很难比较这两个标准误差。通过计算每个估计值的变异系数,结果表明两个估计值具有相似的精度水平:
2.01亿英镑除以23.22亿英镑等于0.087,变异系数为8.7%
12400除以155,000等于0.08,变异系数为8%
本例的数据来自英国非金融企业经济:A至S部分,英国非金融企业经济:质量衡量,广义行业组别-商业登记册及就业调查(繁体中文):表1.
回到目录5.置信区间
置信区间使用标准误差来推导出我们认为真实值可能位于的范围。
置信区间表示估计值的不确定程度,有助于确定样本估计值的精确程度。它指定可能包含未知总体值的值范围。这些值由下限和上限定义。
区间的宽度取决于估计的精度和所使用的置信水平。标准误差越大,间隔越宽;间隔越宽,估计就越不精确。
使用95%置信区间
95%的置信水平是常用的。这意味着,如果我们抽取20个随机样本,并使用该样本中的数据为每个样本计算一个95%置信区间,我们预计,平均而言,20个置信区间中有19个(95%)包含真实的总体值,而20个置信区间中有1个(5%)不包含真实的总体值。如果我们将置信水平提高到99%,将获得更宽的区间。
例子:
2019年7月至9月的估计数据显示,英国16岁及以上就业人口为3275万人,基于样本结果的置信区间为正负17.7万人。如果我们重复取大量样本,95%的置信区间将包含未知总体估计。
本例的数据来自劳动力市场概述,英国:2019年11月而且答11:劳动力调查抽样可变性.
计算置信区间
为了计算估计值周围的置信区间,我们使用该估计值的标准误差。估计值及其95%置信区间表示为:估计值加上或减去误差幅度。
95%置信下限和95%置信上限由样本估计正负1.96个标准误差给出。
计算误差范围为:
误差范围= 1.96 ×标准误差
例子:
2016年,英国私立教育行业估计产生了426.49亿英镑的总营业额。这一估计的标准误差为5.268亿英镑。
该估计值周围的95%置信区间计算如下:
误差范围= 1.96 × 5.268亿英镑= 10.3250亿英镑
因此95%的置信区间是426.49亿英镑加上或减去10.3250亿英镑,分别等于416.16亿英镑和436.82亿英镑。
这意味着,如果我们抽取20个随机样本,并为每个样本计算一个类似的置信区间,平均而言,20个样本中有19个(95%)包含真实的总体值,20个样本中有1个(5%)不包含真实的总体值。因此,真实人口价值在416.16亿英镑至436.82亿英镑之间的概率为95%。
本例的数据来自英国非金融企业经济:2017年A至S部分修订结果而且英国非金融商业经济:质量衡量2017年修订结果.
回到目录6.统计显著性
我们可以使用统计显著性来决定我们是否认为两个基于调查的估计之间的差异反映了总体的真实变化,而不是归因于我们样本选择中的随机变化。
统计显著性有助于我们确定我们应该注意哪些观察到的变化或关系,以及哪些明显的变化可能只是由于抽样的随机性而发生的。
如果一个结果很可能不是由偶然或样本的可变性质引起的,则该结果被称为统计显著性。定义的阈值可以帮助我们测试变化。如果从不同时间点的估计值计算出的统计显著性检验大于阈值,则称该变化具有“统计显著性”。
在检验统计显著性时,经常使用5%的标准。如果观察到的变化被偶然计算出来的概率小于1 / 20,而实际上没有潜在的变化,则观察到的变化在5%的水平上具有统计学意义。
在我们的统计公报的评论中,我们将避免使用“显著”一词来描述统计数据中的趋势,并将始终使用“统计显著”以避免给用户造成任何混淆。
例子:
年度人口调查的估计值是基于当时可能抽取的几个样本中的一个。这意味着在估计中存在一定程度的可变性。这有时会造成数字的误导性变化,因为样本中包括的人是随机选择的。
图1:与2011年相比,2018年英国的吸烟率在统计上有显著下降
2011年至2018年,英国所有18岁及以上人群中当前吸烟者的比例
![与2011年相比,2018年英国的吸烟率在统计上有显著下降。](http://www.my-concier.com/resource?uri=/methodology/methodologytopicsandstatisticalconcepts/uncertaintyandhowwemeasureit/682670ad.png)
资料来源:英国国家统计局年度人口调查
下载此图像图1:与2011年相比,2018年英国的吸烟率在统计上有显著下降
.png (15.8 kB) .xlsx (160.9 kB)据估计,英国18岁及以上人群吸烟的比例已从2011年的20.2%上升至2018年的14.7%。但我们不能想当然地认为这种变化代表着吸烟流行率的真正下降。这可能是样本估计值变化的结果,这使得估计值之间的差异大于吸烟率的实际变化。
统计显著性检验发现,如果仅由随机抽样引起,估计之间的差异要大于预期。这意味着这种差异很可能反映了2011年至2018年间英国吸烟流行率的真实下降,而不是归因于这两年样本选择的随机变化。
回到目录