1.职业数据错误编码综述

  • 国家统计局于2022年7月18日宣布,发现了一些职业数据收集方面的问题,影响了我们的一些调查。

  • 该问题是由于实施了从SOC10到SOC20更新的标准职业分类(SOC)而引起的,并且仅限于职业变量和相关的派生变量。

  • 在SOC主要组(一位数)水平上的分析发现,编码错误对结果的影响很小;这与我们之前的声明一致,即总体劳动力市场指标受这一问题影响很小。

  • 我们的研究表明,大约有一半的四位数SOC代码可能受到影响,尽管在完整的重新编码完成之前,我们无法量化全部影响;本文列出了每种SOC代码可能受到的影响。

  • 在未来几个月里,我们将在2021年1月至2022年9月收集的劳动力调查(LFS)和年度人口调查(APS)中应用职业变量的重新编码,我们计划在2023年春季结束前与相关的劳动力市场出版物一起发布。

回到目录

2.职业数据错误编码的背景

国家统计局(ONS)于2022年7月18日宣布,我们发现了一些职业数据收集的问题,影响了我们的一些调查,更多信息请参见我们的国家统计局调查报告中的职业数据.这个问题是由于实施了更新的标准职业分类(SOC)从SOC10到SOC20因此,调查结果被错误地编码到错误的职业。这种误差仅限于职业变量和相关的派生变量,如社会经济分类(NS-SEC)。这不会影响其他变量或关键的总体劳动力市场指标。

正如我们的更新2022年8月15日国家统计局调查中的职业数据,在详细回顾了劳动力调查(LFS)所收集的数据后,本文提出:

  • 对哪些职业受到错误影响的评估

  • 确定哪些人受到影响的过程

  • 我们解决错误的方法概要

回到目录

3.分析影响的方法

为了评估哪些职业受到调查收集问题的影响,我们进行了两股调查分析。

职业编码指标分析

我们分析了职业数据编码过程中使用的指标,以确定哪些代码受到编码问题的影响以及影响的程度。的每一项标准职业分类(SOC) 2020编码索引包含将代码应用到职业所需的信息,其中包括三个关键信息:职位名称、行业资格条件和其他信息。由于问题的重点是处理这些附加信息,我们根据编码框架中的附加信息将编码索引分组。这使得面试官可以根据受访者提供的完整职业描述来确定最合适的代码。

举一个具体的例子,两个索引条目具有相同的指标值“会计、财务、煤矿”,其中一个条目的附加信息是“合格的”。这两个条目将受访者分配到SOC20分类的两个不同部分的两个不同的职业,使“合格”一词成为一个重要的区分因素。然后对具有相似特征的代码组进行过滤,以删除组中所有条目包含相同的四位SOC代码的任何配对,因此这种情况下的任何错误都不会产生影响。剩下的是职业代码,在这些代码中,对附加信息的处理可能会影响人们对正确职业的编码。因此,出现在至少一个结果组中的SOC代码被识别为“可能受此问题影响”,而没有出现在任何组中的SOC代码被归类为“不受影响”。

为了评估每个四位数SOC20代码受此问题影响的程度,所有代码都与等效的SOC10代码进行了匹配。将劳动力调查(LFS) 2021年1月至3月(JM)收集的SOC20代码与2020年10月至12月(OD)数据收集的SOC10代码进行比较,得出了每个SOC代码在每个数据集中出现的次数列表。在OD20和JM21中同时出现的案例——意味着一个人在两个季度都接受了采访——然后互相核对,以估计可能被正确分类的人数,或者有编码错误风险的人数。

然后将编码指数分析的结果与年度人口调查(APS)上的职业数据的时间序列进行比较。这是为了确定自2021年引入SOC20代码以来,编码问题在哪些方面显著促进了观察到的变化。基于此,任何职业,如果调查收集到大量的案例(超过50%),而合格信息的处理可能导致编码错误,则被归类为“高影响”。部分受影响(5% - 50%)的职业被归为“中等影响”,其余的职业(受影响不到5%)被归为“低影响”。这告诉我们一个职业分组可能受到错误编码影响的程度,但在完整的编码工作完成之前,我们无法知道影响的真正程度。

主要组别之间的净变化

我们还利用OD20和JM21的LFS数据分析了SOC主要组(一位数)水平的影响。为了实现这一目标,首先要过滤数据,只包括在两个季度都接受过面试的人,这些人也在职,并有有效的职业代码。分析过去12个月从事同一份工作的人,我们可以提取出那些一直在同一职业主要组别(例如,他们在两个季度都担任相同的工作角色)的人,以及那些由于SOC10和SOC20之间的结构变化而在主要组别之间发生了合法变化的人。剩下的是那些一直在同一家公司工作,但可能由于编码错误而在各大集团之间发生变化的人。有了这个,我们可以估计误差的净效应在一位数的职业水平。

回到目录

4.分析影响的主要发现

在标准职业分类(SOC)主要组(一位数)水平进行分析。研究发现,对于在劳动力调查(LFS)的2020年10月至12月(OD20)和2021年1月至3月(JM21)季度中从事同一份工作至少12个月的受访者来说,纠正那些被确定为潜在高度影响的职业的错误只会在主要群体层面造成边际净变化。如图1所示,估计影响范围从第3组(副专业职业)的负0.2%到第2组(专业职业)的正0.3%。这与我们之前的声明一致,即主要的劳动力市场指标不受这个编码问题的显著影响。

对被编入可能高度受影响职业代码的工人的人口统计组成的分析表明,不应该有由错误引起的总体偏差。在按年龄、性别、种族和地点进行分析时,受影响程度高的群体中工人的比例与所有工人的比例几乎完全相同。例如,我们在表1中按地区或国家列出了受影响程度高的职业的工人的百分比,我们看到它几乎遵循与所有工人完全相同的模式。

然而,更细粒度的分解还有更重要的影响。我们的分析表明,四位位的SOC代码并不都受到相同程度的影响,主要决定因素是用于分配正确SOC代码的编码索引中合格的“附加信息”的重要性。

如表2所示,在412个SOC20(四位数)单元组中,我们估计有113个(27.4%)代码受到了低影响,90个(21.8%)代码受到了中等影响,209个(50.7%)代码受到了潜在的高影响。尽管这些代码被归类为高影响,这只意味着这些职业有很高的可能性被错误编码。大多数受访者的编码很可能是正确的,只有在合格的“附加信息”与特定的受访者相关的地方才会被编码错误。即使是那些编码错误的作品,它们也应该被归类到类似类型的作品中。例如,作为不同类型的销售助理,但仍在同一主要集团内,或从事认证职业而不是未经认证的工人。因此,总体统计数据基本未受影响。

只有在数据被完全重新编码之后,才能对这个较低级别的分解的影响的精确细节进行评估。有关所有412个SOC代码及其各自影响级别的列表,请参阅我们的伴随数据集

回到目录

5.未来的发展

现在,我们已经确定了可能受到该错误严重影响的职业,现在我们将致力于将职业重新编码应用于2021年1月以来收集的劳动力调查(LFS)和年度人口调查(APS)。在此之前收集的数据不受此问题影响。这一过程将包括自动和文书编码的结合,在LFS和APS中需要重新编码的职业代码包括主要工作、最后一份工作、第二份工作、学徒、冗余、一年前的工作和与社会流动有关的工作。所有基于这些职业代码的派生变量,如社会经济分类(NS-SEC),随后将予以更新。

这些修订将在未来6个月内进行,为了有时间更新相关的劳动力市场出版物,我们计划在2023年春季发布修订后的LFS和APS数据。在修订后的LFS和APS数据公布之前,我们建议在使用基于被确定为受影响的职业代码的数据时要谨慎。对于基于受影响职业数据进行的任何分析,我们建议用户在2023年修订数据发布后重新访问这些数据。

这个编码问题对其他社会调查公布的数据的影响微乎其微。工作时间和收入年度调查(ASHE)的结果使用LFS在主要集团(一位数)水平上的职业数据作为其加权过程的一部分。一旦LFS数据被修改,我们将审查修改ASHE数据的必要性,但基于此分析的发现,任何此类影响都应该是最小的。

回到目录

6.英国国家统计局社会调查数据中职业数据错误编码的影响

对四位数标准职业分类水平的影响
数据集|发布于2022年9月26日
本表包含了所有412个2020标准职业分类(SOC20)代码的完整列表,以及该编码问题对它们各自的估计影响程度。

回到目录

8.引用本文

国家统计局(ONS), 2022年9月26日在ONS网站发布文章,英国国家统计局社会调查中职业数据错误编码的影响

回到目录

联系方式文章

玛蒂娜·赫尔姆
socialsurveys@ons.gov.uk
电话:+44 1633 580181