1.简介

本技术附录提供了关于文章中使用的数据和方法的细节:更新与冠状病毒(COVID-19)有关的死亡的种族对比,英格兰和威尔士:2020年3月2日至7月28日发生的死亡。

回到目录

2.数据

这些分析基于一个独特的关联数据集,该数据集包括2011年人口普查记录、英格兰和威尔士的死亡登记以及仅覆盖英格兰的医院发作统计(HES)。它是由:

  • 将2011年人口普查与2011年至2013年的NHS患者登记(PR)记录连接起来,其中NHS号码被添加到患者登记中确定的人口普查记录中

  • 在没有NHS号码的情况下,使用NHS号码和确定性匹配键链接方法——死亡登记与截至2020年8月24日的2011年人口普查记录相关联

  • 将2017年4月的HES记录加入到结合出生日期和NHS号码的人口普查-死亡关联数据中

相关人口在一系列特征上的分布与完整人口普查人口非常相似,因此可以被认为是2011年英格兰和威尔士总人口的代表。对种族群体联系率的检查显示,2011年人口普查的分布和所有类别的联系人口相对一致,尽管在非联系记录中有更显著的变化。所有民族的国民保健服务人数联系率均超过80%。

研究人群包括2011年按种族划分的所有常住居民,在2020年3月2日之前未知死亡(调查人数(N)为48,468,645)。那些在2011年回答“留在英国的意愿”问题的被列举的人,因为他们在2011年人口普查前一年进入了英国,被排除在分析之外,因为他们在调查分析期间之前有很高的离开英国的倾向。然而,在2011年3月27日至2020年3月2日期间,通常居民的移民程度存在不确定性,这将在本节稍后讨论。使用HES数据的分析仅限于被认为在2020年3月2日还活着的英国普通居民(调查人数(N)为45842599)。

我们使用国家统计局(ONS)纵向研究和国际乘客调查(IPS)的数据,按主要年龄组和种族来估计2011年3月至2020年3月间的移民人数。由于我们只有截至2019年3月的IPS数据,我们假设2019年3月至2020年3月观察到的移民率与前一年观察到的移民率相同。

这些移民和死亡数据被用来确保分析的是仍在英格兰和威尔士人口中并从2020年3月2日起有感染冠状病毒(COVID-19)风险的人,方法是应用外迁调整因子,以消耗2011年人口普查以来因预期移民而产生的人口规模。

截至2020年8月24日登记的2020年3月2日至2020年7月28日期间发生的死亡人数达253194人。其中,229,983人成功与2011年人口普查记录相关联(90.8%)。然而,只有229,929人可用,因为48人与非常住居民有关,6人与110岁以上的人有关,我们将这些人排除在研究人群之外。其中,216,406人居住在英格兰,13,523人居住在威尔士。

死亡原因的定义采用《国际疾病分类第10版》(ICD-10)。涉及COVID-19的死亡包括潜在原因或提及ICD-10代码U07.1 (COVID-19,病毒已查明)或U07.2 (COVID-19,病毒未查明)的死亡。

研究人口目前没有新生儿或移民。因此,一些COVID-19死亡将发生在2011年以来进入该国的移民身上;2011年人口普查后出生的英格兰和威尔士居民因COVID-19死亡的人数将非常少,因为他们将在9岁或以下。

回到目录

3.医院发作统计

在这项分析中,我们使用了2017年4月的医院发作统计(HES)数据,数据来自三个数据集:事故和急诊(AE)、门诊(OP)和住院患者护理(APC)。这三个数据集中的信息都是在个案级别(在一名顾问的护理下完成的每一阶段)。我们从记录级HES数据创建了一个个人级数据集,以便在与2011年人口普查和死亡数据连接时保存所有信息。

由HES推导出的分析变量为:

  • 标志用于ICD10诊断OP和APC数据集中感兴趣的代码
  • 对于所有数据集,每个NHS号码的发作总数和出生日期(我们识别个人的方法)。
  • APC数据集中首次入院的次数标记,以得出人均入院次数。
  • 从APC数据集中获取住院患者护理的天数

然后,通过对NHS号码和出生日期的所有数据集进行堆叠和重复数据删除,将这些数据聚合到个人级别,为每个人创建一行。空白或无效的NHS号码和/或出生日期的记录被删除,因为这些无法与人口普查相关联。我们的HES数据中的个体总数为43,562,505人。然后,通过与国民保健制度数字和出生日期的简单确定联系,将人口普查数据和死亡数据联系起来。31,903,383份HES记录与2011年人口普查有关(73.2%)。其余无关联的26.8%可能没有在2011年人口普查中登记,因为他们出生在2011年3月27日之后,在这一日期之后移民到英国,或者虽然是居民,但没有在2011年人口普查中登记。此外,在没有关联的群体中,有些人可能无法将NHS号码分配到他们的人口普查记录。这可能是由于地址冲突、名称更改或其他原因,因此确定性和概率链接方法将失败,尽管这只是在少数情况下。

回到目录

4.Age-standardisation方法

这个微软Excel模板展示了年龄标准化率和95%置信区间计算。

年龄标准化比率的计算方法如下:


地点:

  • I是年龄段
  • w标准人群中个体的数量或比例是第I年龄段吗
  • r是第i组受试者中观察到的年龄特异性比率,由:

地点:


  • d观察到的受试者死亡人数是否在第I年龄组
  • nI年龄段的人群有危险吗

年龄标准化率是年龄特定死亡率的加权和,其中年龄特定权重代表标准人口(在本例中为2013年欧洲标准人口)的相对年龄分布。方差是年龄相关方差的和,其标准误差为方差的平方根:


  • r本地人口的粗年龄分别率是否属于第I年龄组别
  • d当地人口的死亡人数是在第I年龄段吗

置信区间

本次发布的死亡率数据不受抽样变化的影响,因为它们不是从样本中提取的。然而,它们可能受到随机变化的影响,特别是在死亡人数或死亡概率很小的情况下。为了帮助评估比率的可变性,它们与95%一起呈现置信区间

计算死亡率置信区间所用方法的选择,在一定程度上取决于这些死亡率所依据的死亡数据分布的假设。传统上,在假设死亡服从正态分布的情况下,使用正态近似方法计算置信区间。然而,如果死亡人数相对较少(少于100人),则可假定其遵循泊松概率分布。在这种情况下,用泊松分布表的置信极限因子来计算置信区间比用常规逼近方法更合适。

该方法用于计算基于少于100例死亡的死亡率的置信区间多布森和其他人(1991)如在APHO (2008).在这种方法中,通过缩放和移动(加权)泊松分布计数(每年的死亡人数)的确切区间来获得置信区间。所用的权重是年龄标准化率的标准误差与死亡人数的标准误差之比。

下95%置信区间和上95%置信区间分别记为ASR lower和ASR upper,计算公式为:



地点:

  • Dl和Du使用泊松概率分布表的置信极限因子计算出的死亡人数的准确上下限置信极限是什么
  • D是每年的死亡人数
  • v(ASR)为年龄标准化率的方差
  • v(D)是死亡人数的方差

如果一年内死亡人数超过100人,则使用正规近似方法计算年龄标准化率的95%置信区间:

ASR会/ UL= asr±1.96* se

地点:

ASR/你分别为年龄标准化率的95%置信上限和95%置信下限,SE为标准误差。

回到目录

5.造型分析

在考虑了一系列地理、人口、社会经济、家庭、职业暴露和健康相关因素后,我们使用考克斯比例风险模型来评估不同种族群体死于冠状病毒(COVID-19)的风险如何变化。除先前存在的健康状况外,大多数个人特征来自2011年人口普查,这些健康状况来自2017年4月以来的医院病例统计(HES)记录。

我们对2020年3月2日至2020年7月28日期间死于COVID-19的风险进行了建模。在我们的分析数据集中,我们包括了在这段时间内所有死于任何原因的人,以及那些没有死于任何原因的人的加权随机样本(白人的抽样分数为5%,其他族裔的抽样分数为20%)。回归估计使用在2011年到2020年之间没有迁移的概率进一步加权。

由于与COVID-19有关的死亡风险因性别而显著不同,我们对男性和女性分别估计了不同的模型。我们还根据2011年的居住地点和2019年的患者登记册,为私人家庭和养老院的患者估计了不同的模式。我们给出了几个模型的结果,逐步添加不同的控制变量。这让我们看到,当我们加入更多的解释变量时,不同种族之间的差异是如何变化的。

我们所有的模型都根据年龄进行了调整。我们将年龄作为一个二阶多项式来解释年龄与COVID-19死亡危险之间的非线性关系。

然后我们根据地理因素进行调整。感染COVID-19的概率可能因居住地区而异。因此,我们允许基线死亡率危险因地方当局地区而异。我们还根据2011年人口普查时居住的低超级产出区(LSOA)的人口密度进行了调整。为了解释人口密度与COVID-19死亡危险之间的非线性关系,我们将人口密度作为一个二阶多项式,允许人口密度分布的前1%的不同斜率来解释异常值。

然后,我们考虑了贫困和更广泛的社会经济地位指标。我们在模型中加入2011年人口普查时的多重剥夺指数(IMD) 2015的十分之一,以调整邻里剥夺。IMD是基于收入、就业和健康等因素的剥夺程度的全面衡量。

我们还根据家庭贫困程度进行了调整,这是一种基于四个选定家庭特征(就业、教育、健康和住房)的劣势综合衡量指标。在我们的模型中,我们包括了个人的最高资格等级(学位,A-level或同等学历,GCSE或同等学历,无资格),以及户主的国家统计社会经济分类(高级管理、行政和专业职业、中级职业、常规和手工职业,从未工作或长期失业,不适用)。

我们会根据家庭组成和环境作进一步调整。在我们的模型中,我们包括了家庭的人数、家庭类型(不是家庭、有孩子的夫妇、单亲),以及生活在多代人家庭(定义为三代人生活在一起)或有任何孩子(18岁或以下)的二元变量。我们还对房屋的保有权进行了调整(完全拥有、抵押拥有、社会租赁、私人租赁、其他)。

此外,我们还根据职业暴露的一系列措施进行了调整。我们包括二进制变量,表明个人是否是关键工作者,如果是,是什么类型。该数据来自2011年人口普查记录的职业。我们还包括一个二元变量,表示家庭中是否有人是关键工作者。我们使用从0(没有接触)到100(接触最多)的分数来解释接触疾病和与他人接触的情况。疾病暴露和物理邻近评分最初是使用基于美国标准职业分类(SOC)代码的O*NET数据获得的,并映射到英国SOC代码。分数的推导与方法是一致的以前由国家统计局(ONS)使用.我们将所有拥有合法职业的人的这些分数包括在内,并在所有家庭成员中得出最大值。

最后,我们根据几种健康指标进行调整。我们在模型中包括自我报告的健康状况(非常好、良好、一般、糟糕、非常糟糕),以及个体是否有活动限制(残疾)(没有限制,日常活动限制很多,日常活动限制很少),如2011年人口普查记录的那样。我们还根据从2017年4月起的HES记录中得出的既存状况进行了调整,如主要文章第4节所述:

  • 癌症史
  • 心血管病史
  • 消化系统病史
  • 有心理健康病史
  • 代谢病史
  • 肌肉骨骼病史
  • 神经系统病史
  • 肾脏病史
  • 呼吸系统病史
  • 入院患者护理(APC)入院人数(0、1、2 ~ 3、4 ~ 5、6 ~ 9、10 +)
  • APC住院天数(0、1、2 ~ 4、5 ~ 9、10 ~ 19、20 ~ 39、40 ~ 69、70 +)

为了考虑到所有这些与健康相关的因素的影响会随着个人的年龄而变化,我们将每个因素与一个二元变量相互作用,以表明个人的年龄是否在70岁以上。

在这篇文章中,我们报告了在英格兰私人家庭中每个少数民族群体相对于白人人口的风险比,在调整了年龄、地理因素、社会经济因素和健康相关变量后。相应的模型拟合优度统计量可在数据集

我们发现,由健康相关因素导致的跨种族COVID-19死亡风险差异,在很大程度上可以用2011年自我报告的健康和残疾状况来解释。对大多数种族群体来说,进一步调整医院共病对危险比影响不大,尽管孟加拉国和巴基斯坦男性的危险比明显下降。对于女性,包括医院共病增加了几个种族群体的危险比,最显著的是那些黑人非洲或中国民族背景的人。

图1:2020年3月2日至7月28日英格兰私人家庭中与白人人口相关的2019冠状病毒病死亡率(按种族和性别分列)

嵌入代码
" id="embed-4bc-43ac-b587-f2d0657b005e" name="embed-4bc-43ac-b587-f2d0657b005e" readonly>

下载数据

.xlsx

注:

  1. Cox比例风险模型根据年龄、地理(地方当局和人口密度)、社会经济因素(地区匮乏、家庭组成、社会经济地位、最高资格、家庭保有权、多代家庭标志和职业指标(包括关键工作者和接触他人)以及健康(2011年3月自我报告的健康和残疾状况,以及2017年4月以来的医院共病)进行调整。
  2. 基于截至2020年8月24日的2020年3月2日至2020年7月28日期间死亡登记的数字,可与2011年人口普查有关。
  3. 死亡的定义采用《国际疾病分类第10版》(ICD-10)。涉及COVID-19的死亡包括潜在原因或提及ICD-10代码U07.1 (COVID-19,病毒已查明)或U07.2 (COVID-19,病毒未查明)的死亡。
  4. 其他族群包括亚裔他者、黑人他者、阿拉伯人及其他族群类别。
  5. 没有越过x轴1.0值的误差条表示在统计上有显著差异的相对死亡率。
回到目录

联系方式方法

Chris White和Daniel Ayoubkhani
health.data@ons.gov.uk
电话:+44 (0)1633 455865