2.数据源

上述文章中的分析基于一个独特的关联数据集,该数据集包括2011年人口普查记录、死亡登记、住院事件统计(HES)以及从流行病规划和研究的全科医学数据提取服务(GPES),只覆盖英格兰。它是由:

  • 将2011年人口普查与2011年至2013年间的NHS患者登记册(PR)记录联系起来,其中NHS号码被添加到患者登记册中确定的人口普查记录中

  • 使用NHS号码,死亡登记数据与2011年人口普查记录相关联

  • 将2017年4月的HES记录和2015年1月的GPES记录加入到使用NHS编号的人口普查死亡相关数据中

研究人群包括2930万2011年人口普查的受访者,年龄在2020年30岁至100岁之间,在2020年1月24日之前未死亡,可与2011年至2013年患者登记册和GDPPR数据集相关联(其中包括大流行开始时活跃的NHS患者,因此不太可能在2011年至2020年期间移民)。

研究人群目前没有更新移民。因此,自2011年以来,一些冠状病毒(COVID-19)死亡病例将发生在进入美国的移民身上。

死因的定义采用了《国际疾病分类第十版》(ICD-10)。涉及COVID-19的死亡包括那些潜在原因或提及ICD-10代码U07.1 (COVID-19,病毒已识别)、U07.2 (COVID-19,病毒未识别)或U09.9 (COVID-19后症状)的死亡。

回到目录

3.医院的变量

在这个分析中,我们使用住院事件统计(HES)2017年4月的数据来自入院患者护理(APC)记录。该数据集中的信息是在发作级别(在咨询师指导下完成的每个护理期)。在与2011年人口普查和死亡数据相关联时,我们根据记录级HES数据创建了一个个人级数据集,以保存所有信息。

由HES推导出的分析变量为:

  • APC数据集中首次入院事件标记的数量,以得出每人入院的数量

  • 来自APC数据集的住院病人护理天数

然后,通过对NHS号码和出生日期的所有数据集进行堆叠和重复数据删除,将这些数据聚合到个人级别,为每个人创建一行。空白或无效的NHS号码和/或出生日期的记录被删除,因为这些不能与人口普查相关联。

我们的HES数据中的总人数为43,562,505人。然后,通过与国民保健服务号码和出生日期的简单确定性联系,将人口普查数据与人口普查和死亡数据联系起来。其中31,903,383项HES记录与2011年人口普查有关(73.2%)。其余26.8%的未联系人口可能没有在2011年人口普查中登记,因为他们出生在2011年3月27日之后,在该日期之后移民到英国,或者尽管是居民,但没有在2011年人口普查中登记。

此外,非关联组中的一些人可能无法将NHS号码分配到他们的人口普查记录中。这可能是因为地址冲突、名称更改或其他原因,因此确定性和概率链接方法将失败,尽管这只是在少数情况下。

回到目录

4.初级保健变量

初级保健记录是从用于大流行规划和研究的全科医学数据提取服务(GPES)该数据集包含冠状病毒(COVID-19)大流行开始时活跃的NHS患者的大约35000个临床代码(包括诊断、测量和处方)。

2020年,GDPPR数据集首次用于识别研究人群中的个体;在英格兰2011年人口普查的4360万受访者中,有3490万人可以与2011年至2013年的患者登记册相关联,并且在2020年1月之前没有死亡,其中有3490万人可以与至少一个GDPPR记录相关联。其次,与HES数据一样,通过按NHS编号对个人记录进行分组,将相关情况的记录级别数据转换为二进制(身体质量指数和肾脏疾病除外)个人级别变量。

GDPPR数据集用于确定过去五年内因一系列疾病有初级保健接触的个人。之所以选择这些合并症,是因为它们以前被认为会增加冠状病毒死亡的风险预测成人COVID-19入院率和死亡率的QCOVID算法用同样的方法推导出来代码清单

我们无法从QCOVID算法中纳入一些健康变量,因为用于分析的病例数量不足(骨髓移植、脑瘫、先天性心脏病和镰状细胞病),或者因为我们没有使用这些数据的许可(化疗或放疗治疗)。所包括的全部健康变量清单包括:

  • 身体质量指数

  • 做过实体器官移植

  • 哮喘病史

  • 心房颤动病史

  • 血癌病史

  • 有慢性阻塞性肺疾病病史

  • 有肝硬化病史

  • 有充血性心力衰竭病史

  • 有冠心病病史

  • 痴呆症的历史

  • 糖尿病病史

  • 癫痫病史

  • 肾脏病史

  • 学习障碍史

  • 精神病史

  • 骨质疏松性骨折史

  • 帕金森病的病史

  • 周围血管疾病史

  • 有肺动脉高压或肺纤维化病史

  • 罕见神经疾病史(运动神经元疾病、多发性硬化症、肌无力或亨廷顿舞蹈病)

  • 罕见肺部疾病史(囊性纤维化、支气管扩张或肺泡炎)

  • 呼吸道癌病史

  • 类风湿关节炎或系统性红斑狼疮病史

  • 有中风或短暂性缺血发作史

  • 有血栓或肺栓塞史

  • 处方抗白三烯或长效β受体阻滞剂药物

  • 处方免疫抑制药物

  • 处方强的松龙药物

回到目录

5.Age-standardisation方法

年龄标准化率(每10万人年面临风险)计算如下:

地点:

  • I是年龄组

  • w标准人群中年龄I组的个体数量或比例是多少

  • r是i年龄组受试者中观察到的年龄特异性比率,由:

地点:

  • d研究对象人群中观察到的死亡人数是否属于年龄组I

  • nI年龄组的人年风险是否存在

年龄标准化死亡率是按年龄划分的死亡率的加权和,其中按年龄划分的权重代表标准人口的相对年龄分布(在本例中,是按年龄划分的死亡率)2013年欧洲标准人口(ESP)).方差是特定年龄方差的和,其标准误差是方差的平方根:

地点:

  • r本地人口按年龄划分的粗略比率是否属于第I年龄组

  • d当地人口的死亡人数是否属于第I年龄组

置信区间

本新闻稿中的死亡率数据不受抽样变化的影响,因为它们不是来自样本。然而,它们可能受到随机变化的影响,特别是在死亡人数或死亡概率很小的情况下。为了帮助评估比率的可变性,它们与95%一起呈现置信区间

计算死亡率置信区间所用方法的选择,在某种程度上取决于对这些死亡率所依据的死亡数据分布所作的假设。传统上,在假设死亡是正态分布的情况下,用正态近似方法计算置信区间。然而,如果死亡人数相对较少(少于100人),则可以假定它遵循泊松概率分布。在这种情况下,使用泊松分布表中的置信极限因子来计算置信区间比使用正态近似方法更合适。

用于计算基于少于100例死亡的比率的置信区间的方法由多布森等人(1991)如在APHO公共卫生指南(2008年).在这种方法中,通过缩放和移动(加权)泊松分布计数(每年的死亡人数)的确切区间来获得置信区间。所使用的权重是年龄标准化率的标准误差与死亡人数的标准误差之比。

下95%置信区间和上95%置信区间分别记为ASR lower和ASR upper,计算公式为:

地点:

  • Dl和Du使用泊松概率分布表中的置信极限因子计算出的死亡人数的确切置信下限和上限是多少

  • D是每年的死亡人数

  • v(ASR)为年龄标准化率的方差

  • v(D)为死亡人数的方差

如果一年内死亡人数超过100人,则使用正态近似方法计算年龄标准化率的95%置信区间如下:

地点:

ASR会/ UL分别为年龄标准化率的上、下95%置信限,SE为标准误差。

回到目录

6.造型分析

我们使用Cox比例风险模型来评估在年龄、居住类型(私人家庭、养老院或其他公共机构)和一系列其他特征调整后,涉及冠状病毒(COVID-19)的死亡风险在感兴趣的暴露变量的群体之间如何变化;具体而言,包括地点、劣势衡量标准、职业、生活安排和大流行前的健康状况。

我们对结果期死于COVID-19的风险进行建模。在我们的分析数据集中,我们包括了在此期间因任何原因死亡的所有人,以及非因任何原因死亡的人的加权随机样本。

危害函数建模如下:

地点:

  • T是生存时间

  • H (t)为t时刻的危险函数

  • h0(t)为t时刻的基线危险度

  • bI的估计系数是多少th协变量

  • x是I的值吗th协变量

i的风险比th期限计算为:

经验值(b

我们对男性和女性进行了单独的模型估计,因为涉及COVID-19的死亡风险因性别而显著不同。我们给出了几个模型的结果,逐步添加不同的控制变量。这使我们能够看到,当我们加入更多的解释变量时,涉及COVID-19的死亡风险的差异是如何变化的。

在我们的基线模型中,我们提出了根据年龄调整的风险比。我们将年龄作为二阶多项式,以解释年龄与COVID-19死亡危险之间的非线性关系。然后我们调整了可能影响感染风险的因素,也调整了已有疾病的风险,从而调整了预后。

首先,我们根据住宅类型(私人家庭、养老院、其他公共设施)进行调整。我们使用2019年NHS患者登记册来更新2011年人口普查中记录为居住在私人家庭的个人的居住地,这些人后来搬到了养老院。

然后,我们根据GPES中持有的当前邮政编码来调整地理因素。感染COVID-19的概率可能因居住地区而异。因此,我们允许基准死亡危险因地方当局地区而异。我们还根据下层超级输出区域(LSOA)的人口密度进行了调整。为了解释人口密度与COVID-19死亡危险之间的非线性关系,我们将人口密度作为二阶多项式,允许人口密度分布前1%的不同斜率来解释异常值。

然后,我们考虑了贫困和更广泛的社会经济地位指标。我们通过将多重剥夺指数(IMD) 2019的十分位数添加到模型中来调整邻里剥夺。IMD是基于收入、就业和健康等因素对剥夺状况的全面衡量。

我们还根据家庭剥夺水平进行了调整,这是一种基于四个选定的家庭特征(就业、教育、健康和住房)的不利状况的综合衡量。我们在模型中包括个人的最高水平资格(学位,A-level或同等学历,GCSE或同等学历,无资格),以及家庭参考人员的国家统计社会经济分类(NS-SEC)(高级管理、行政和专业职业,中级职业,常规和手工职业,从未工作或长期失业,不适用)。

我们进一步根据家庭组成和环境进行调整。我们的模型包括:

  • 家庭的人数

  • 家庭类型(不是家庭,有孩子的夫妇,单亲)

  • 住户组成(单成年人住户、两成年人住户、多代同堂住户(最少一人年龄在65岁或以上,另一人年龄在20岁以下)、18岁或以下儿童)

  • 房屋所有权(完全拥有、抵押拥有、社会租赁、私人租赁、其他)

我们为生活在养老院或其他公共机构的人的所有家庭变量增加了一个额外的“非家庭”级别。

此外,我们还对职业暴露的一系列措施进行了调整。我们包含了一个变量,表明该员工是否是关键员工,如果是,是什么类型的员工。这些数据取自2011年人口普查中记录的职业。我们还包括一个二进制变量,用于指示家庭中是否有人是关键员工。

我们使用从0(没有接触)到100(最大接触)的分数来解释接触疾病和与他人的接触。疾病暴露和物理接近得分最初是使用基于美国标准职业分类(SOC)代码的O*NET数据获得的,并映射到英国SOC代码。分数的推导与方法论是一致的以前由英国国家统计局使用.我们将这些分数包括所有拥有有效职业的个人,并得出所有家庭成员的最大值。

这些特征大多来自2011年人口普查。我们试图提高人口普查变量的准确性,使其更准确地反映2020年的生活环境,方法是将2011年人口普查中记录为生活在私人家庭,但2019年患者登记册中记录为生活在养老院的人的职业暴露变量设置为0。此外,2011年人口普查时10至17岁的人口被排除在家庭水平变量的计算之外,因为他们很可能已经离开了家庭。

最后,我们对过去三年住院人数和住院患者护理天数进行了调整,这些数据来自NHS住院事件统计(HES)记录,和存在的既存健康状况,从用于大流行规划和研究的全科医学数据提取服务(GPES).为了使所有这些健康相关因素的影响随个人年龄的变化而变化,我们将每个因素与一个二元变量相互作用,表明个人是否年龄在70岁或以上。

在对年龄、地理因素、社会经济和人口因素以及健康相关变量进行调整后,我们报告了暴露变量的危害比。风险比大于1表明COVID-19的死亡率高于参照组,而风险比小于1表明COVID-19的死亡率低于参照组。相应的模型拟合优度统计可以在数据集中找到。

我们还通过扩展模型以考虑利益暴露的时间依赖系数,报告了在大流行的第一波和第二波中涉及COVID-19的死亡风险。2020年9月12日以后发生的死亡被归类为第二波死亡。

第二波疫情开始的实验估计值定义为2020年8月21日,这相当于自2020年5月22日首次报告以来,繁殖数(R)首次增加到1以上,再加上21天,以考虑到新感染病例与对死亡率的影响之间的滞后。2020年9月11日之后仍在研究中的人的随访时间被分为第一波和第二波,第一波结果被记录为审查。我们用第一波和第二波暴露变量估计的分层来拟合Cox模型,从而假设在第二波开始时风险比发生阶梯式变化。

回到目录

联系详情方法

马特·博斯沃思和克里斯·怀特
health.data@ons.gov.uk
电话:+44 (0)1633 455 865