1.简介

以下是技术报告孤独——什么特征和情况与孤独感有关?,探索与孤独有关的因素。使用来自社区生活调查2016年8月至2017年3月,最初进行了双变量分析,以探索一系列个人特征和环境与自我报告的孤独感之间的可能联系。随后进行了进一步、更深入的分析,以探索这些与孤独关系的性质和相对强度。其目的是产生深入的见解,以帮助决策者更有效地缓解孤独感。

这里报道的研究使用了一个迭代的研究方案,包括描述性分析,然后是逻辑回归,最后是潜在类别分析(LCA)。逻辑回归和LCA分析从两个不同但互补的角度探讨了孤独。逻辑回归试图分离出影响孤独可能性的单个因素,而LCA试图确定那些经常在报告孤独的人中同时出现的因素的组合。这有助于提供一个更全面的图景,并强调,在实践中,它可能是多种特征和环境的结合,共同塑造了我们对孤独的体验和感知。本文提供了关于如何应用这些技术的技术信息。

回到目录

2.2016年至2017年社区生活调查数据

这项研究依赖于年度社区生活调查(CLS)的数据,CLS是英国一项具有全国代表性的成年人(16岁及以上)家庭调查。CLS 2016年至2017年数据集包含2016年8月至2017年3月期间10256名成年人的数据。有关详细信息,请参阅2016 - 2017年社区生活在线和纸质调查技术报告

之所以选择CLS 2016年至2017年的数据集进行分析,是因为该调查询问了受访者的孤独频率。调查亦搜集受访者的社会人口特征、行为、态度、社区参与及环境等资料,作为解释变量。

孤独:结果变量

分析的核心是CLS 2016年至2017年的一个问题,该问题询问受访者:你多久会感到孤独一次?

  1. 经常或总是
  2. 有时候
  3. 偶尔
  4. 几乎从来没有
  5. 从来没有

为了本报告的目的,这被称为“孤独问题”。

(重新)编码变量进行分析

二分孤独

孤独变量的二元版本被用于逻辑回归和LCA。“经常/总是”、“有时”和“偶尔”被归结为“更经常孤独”一类,而“几乎从不”或“从不”被归结为“几乎从不或从不孤独”一类。虽然以这种方式将结果变量一分为二掩盖了报告的孤独频率类别之间的一些区别,但这对于逻辑回归和LCA技术是必要的。以这种方式重新编码孤独的原因将在本节中详细介绍。

样本量相对较小。CLS 2016年至2017年的数据集包含了10256个人的回复,其中10057个案例有关于孤独问题的有效数据。对于要包含在LCA模型中的案例,模型中包含的每个变量都必须有有效数据。由于包含了每个额外的变量,任何给定的情况由于缺少数据而变得不符合条件,从而被排除在模型之外的可能性更大。在最终的logistic模型和LCA规范(分别参见第3节和第4节)中,由于数据缺失,样本量分别减少到6,414和6,149。

出于统计质量的考虑,我们决定,理想情况下,解释变量应与二进制孤独变量一起制成表格,以便尽可能使所有(未加权的)细胞计数至少为100。这个“100个最小单元格计数”规则是相对任意的,但它决定了某种最小单元格计数是需要的。这一规则适用于所有变量,除了经济活动,由于样本中失业人数相对较少,有60个(未加权)案例报告失业,并且他们“几乎从未”或“从未”经历过孤独。

虽然有必要重新编码变量以减少类别,但理想情况下,重新编码应该保留底层分布,同时拥有更少的类别1.对孤独问题的回答分布如图1所示。

这表明,孤独的频率倾向于“几乎从不”和“从不”的反应量表。如前所述,通过将孤独变量一分为二,不同类别的受访者频率大致相似,从而大致保留了原始变量的分布:4841个受访者“更经常孤独”,5216个受访者“几乎从未或从未孤独”。在样本量较大的情况下,可能会包括更多的孤独类别,从而有助于在孤独频率方面进行更大的区分。

另一个原因是逻辑回归和LCA编码之间的一致性。由于LCA(由于前面描述的原因)需要一个二进制版本的孤独变量,为了结果的一致性,应用一种使用二进制编码的逻辑回归是有意义的。此外,虽然有可能对多个分类结果进行多项逻辑回归,但具有二元结果的逻辑回归(例如,“孤独”与“不孤独”相比)也更容易解释和解释。

重新编码(并推导)解释性变量或自变量

在许多情况下,独立变量或解释变量在纳入模型之前需要进一步准备。

如前所述,在对LCA进行重新编码时,最好尽可能地保留变量的原始分布,在对解释变量进行重新编码时也考虑到了这一点。此外,(如前所述)缺少数据也是有问题的。因此,遗漏病例数超过3000例的变量被排除在外。

小细胞计数可能产生低质量的分析。如前所述,为了确保当每个解释变量与孤独变量一起制成表格时,最低单元格数为100,类别被折叠,并且在适当的情况下,一些类别被重新编码为缺失,从而从分析中删除这些情况。重新编码后,如前所述,由于样本中失业人数相对较少,只有经济状况打破了这一规则。

然而,更重要的是产生对有意义的解释有用的编码——类别只在新类别有意义的地方被分解。例如,将失业人口归入任何其他经济类别都没有意义。

数据缺失和偏见

如前所述,LCA模型中包含的变量数据缺失的情况被排除在分析之外。缺失的数据会产生有偏见的估计和无效的结论,特别是如果数据不是“随机缺失”,或者换句话说,如果“缺失”存在一些(未知的)模式(Graham, 2009)。2

在我们的分析中,我们没有检查缺失的数据,我们不知道某些具有特定特征的人是否或在多大程度上可能比具有不同特征的人更不能提供响应。我们没有使用任何技术来处理缺失的数据(例如,imputation)。因此,我们无法知道缺失数据的模式是否或如何影响我们的发现。

备注:2016年至2017年社区生活调查数据

  1. Strait, DS, Moniz, MA和Strait, PT(1996),“有限混合编码:一种编码连续字符的新方法”,《系统生物学》,第45卷,第1期,第67至78页。

  2. Graham, JW(2009),“缺失数据分析:使其在现实世界中发挥作用”,心理学年度评论,第60卷,第549页至576页

回到目录

3.逻辑回归

逻辑回归分析考虑了解释变量与结果变量之间的关系,同时考虑了影响结果的其他解释变量。使用逻辑回归,因为它适用于查看分类结果(这是大多数社区生活调查(CLS)变量所采取的形式)。虽然有可能对多个分类结果进行多项逻辑回归,但选择了具有二元结果的逻辑回归(例如,“孤独”与“不孤独”相比)。选择这个选项是为了便于理解(预测结果是“孤独”或“不孤独”);以及与LCA的一致性。

过程

该分析在SAS 9.3中进行。所有变量都被视为分类变量。logistic回归分析的样本量为6,414。使用逆向逻辑回归建立最终模型。每个变量的贡献是通过查看每个预测因子的t检验的显著性值来评估的。如果至少有一个不显著变量,则将p值最高的变量从模型中删除。重复这一过程,直到所有剩余变量在0.05水平上显著。

有多种方法可以将变量输入模型。尝试了正向、向后和逐步模型,发现每种情况下大多数变量是相同的。最终模型采用后向逻辑回归方法,得到赤池信息准则(AIC)最低的模型;此外,正向方法通常允许由于其他变量先进入模型而错过重要变量(“抑制效应”)。

多重共线性

在社区生活调查中收集的许多变量是相互关联的。多重共线性(也称为共线性)是指回归模型中的一个或多个解释变量高度相关,以便它们以高度的准确性线性预测彼此。然而,多元回归的一个重要假设是解释变量之间不是高度相关的。回归模型中预测变量之间的相关性过高会影响回归估计的稳定性和解释。

在最终的模型中,有一些变量是相关的,但是它们的Pearson 's Correlation绝对值小于0.5,包含这些变量后模型表现更好,所以它们仍然保留在模型中。它们是残疾和健康(皮尔逊相关系数为负0.46463),以及与邻居聊天、属于邻居和对当地的满意度(与邻居聊天和属于邻居的皮尔逊相关系数为0.31267,与邻居聊天和对当地的满意度为0.16419,与邻居聊天和对当地的满意度为0.39001)。

拟合优度

拟合优度描述了一个模型与生成它的数据的拟合程度。它可以用来评估模型预测的数据以及与已收集的数据的对应程度。有各种各样的测量方法用于评估模型的拟合性。AIC和Schwarz判据(SC)为负2倍对数似然(-2 Log L)的偏差,AIC和SC通过模型中预测因子的数量来惩罚对数似然。AIC和SC用于同一样本上非嵌套模型的比较。最终,AIC和SC值最小的模型被认为是最好的,尽管AIC和SC值本身没有意义。

似然比(LR)卡方检验、分数卡方检验和Wald卡方检验都检验了模型中至少有一个预测因子的回归系数不等于零。残差卡方检验显示了卡方检验统计量,自由度(DF)和相关的p值(PR>ChiSq)对应于所有预测因子同时等于零的特定检验。所有三个检验的p值都很小,可以得出这样的结论:模型中至少有一个回归系数不等于零。

交互作用

相互作用可用于检验两个或多个预测变量对一个结果变量的联合作用。它允许我们探索因变量和自变量之间的关系如何因上下文而不同。一些相互作用被认为是显著的,然而,没有事先的证据支持与孤独的联系。一些相互作用似乎与直觉相反,并且在改进AIC方面没有对模型进行大的改进。此外,在模型中添加交互项会极大地改变模型中所有系数的解释。为了进行这项分析,决定删除相互作用,以便查明每个变量的个别影响。

因果关系

回归分析可以识别因素之间的关系;然而,它不能告诉我们因果关系。然而,对于某些因素,基于先验知识,因果关系是相当清楚的(例如,孤独不会导致某人成为寡妇,但是,成为寡妇会导致孤独),对于另一些因素,因果关系更加模糊(例如,健康不佳会导致孤独,但孤独也会导致健康不佳)。因此,在先验知识无法明确因果关系方向的情况下,重要的是要注意因果关系可以朝任何一个方向(或两个方向)运行。

权重

对社区生活调查的结果进行加权,以补偿不平等的选择概率和差异不响应(即确保最终数据集的年龄和性别分布与英格兰人口的年龄和性别分布相匹配)。我们的回归模型考虑了权重。

结果解释

比值比是逻辑回归的通常结果。模型中每个变量的优势比是通过对估计值求幂得到的。优势比可以解释为:对于预测变量中一个单位的变化,假设模型中的其他变量保持不变,则阳性结果的优势比预计将按相应的系数变化。

为每个优势比提供95% Wald置信限。对于一个95%置信水平的给定预测变量,在重复试验中,95%的置信区间(ci)将包括“真实”总体优势比。CI等价于卡方检验统计量:如果CI包括1,假设模型中有其他预测因子,那么特定回归系数等于0且优势比等于1的原假设将不能被拒绝。CI的一个优点是它是说明性的;它提供了关于“真”参数可能存在的位置以及优势比点估计的精度的信息。

回到目录

4.潜在类别分析

潜在类别分析(LCA)是一种统计技术,用于确定人口中的子群体。应用于调查数据,LCA根据表示为分类变量的特征模式将个人分类为组或“类型”。LCA被用于孤独的文章将具有相似特征模式的个体分组,包括报告的孤独经历。通过采用本文报道的LCA,揭示了与孤独体验“相符”的特征组合。

研究发现,一些组合具有更频繁孤独的群体的特征(这些因素在孤独方面可能有风险),而另一些特征则具有不太频繁(或从不)孤独的群体的特征(这些因素可能更能抵御孤独)。从概要的角度考虑这些特征是合理的。以这种方式使用LCA可以帮助识别一般人群中表现出更大孤独风险的特征组合的群体,以及在孤独方面具有更强保护作用的特征的群体。

采用LCA方法

孤独变量和其他变量一起被包括在模型中,然后通过逐个添加和删除变量,目的是产生一个具有良好分离性的模型(特别是在孤独变量上)。另一种方法是在开发LCA模型之前,根据对孤独问题的回答来分割我们的数据集。例如,数据的一个子集可以只包括那些报告“经常/总是”感到孤独的人,然后测试一些变量以进行良好的分离——这可能会产生具有不同相似特征的不同组,这些组都是最经常孤独的。类似地,数据的一个子集可能只包括那些在LCA模型中报告不那么孤独的病例(例如,从不)。

然而,由于两个主要原因,这些方法没有被采用。首先,使用完整的数据集(而不是一个子集)可以更好地比较所有变量(包括孤独变量)中具有不同特征的人。其次,相对较小的样本量将进一步减少,导致结果质量较差。

为最终的LCA规范选择解释变量

逻辑回归强调了在其他因素不变的情况下,孤独的可能性显著增加或减少的特征。作为构建LCA规范的起点,它们被用于构建LCA模型1.通过反复试验,每次添加和删除一个变量并重新运行算法,使用与以下相关的变量生成了模型规范:

孤独频率:

  • 1 .经常/总是,有时;偶尔
  • 几乎没有;从来没有

婚姻状况:

  • 1 =单身,即从未结过婚,从未登记过同性民事伴侣关系;分离/离婚
  • 2 =与已婚或民事伴侣生活在一起(未分居)
  • 3 =丧偶

健康状况:

  • 1=非常好或很好
  • 2 =公平
  • 3 =非常糟糕或糟糕

房价任期:

  • 1 =完全拥有/抵押/贷款/部分购买部分租金
  • 2 =租房

有或没有持续或预计持续12个月或更长时间的身体或精神健康状况/疾病:

  • 1 =是
  • 2 =否

独居或不独居:

  • 1 .独自生活
  • 2 =不独居

年龄分为三类:

  • 16至34岁
  • 35至64岁
  • 65岁及以上

识别孤独的群体或个人资料

进行LCA是为了产生具有不同特征的个体群体,使群体中的个体彼此更相似,同时又与其他群体不同。表1给出了最终LCA模型的图表。

就变量类别而言,分离较好的模型在每个组之间的分布不太均等——一般来说,接近100%的值表明组之间的划分更清晰2.由于我们的研究重点是孤独,所以我们的LCA输出在孤独变量方面表现出良好的分离是很重要的。例如,在表1中,C组显示了最好的分离,85%的人报告“几乎从不”或“从不”感到孤独,15%的人报告“经常/总是”、“有时”或“偶尔”感到孤独。当然,一个更有用的模型也提供了包括其他变量的良好分离-不平等分布和偏离平均值特别值得注意,因为这表明特征不同于平均值和/或其他组。

根据我们的数据,选择偏离平均值15%的偏差来识别孤独和非孤独群体。如表1所示,有四组符合这一标准:A组,C组,D组和e组主要孤独文章在美国,我们只报道这些群体,因为这些群体的孤独感分布与平均值相差最大。为了透明起见,表1列出了LCA模型产生的所有七个组。LCA原始数据见附录2。

在伴随的孤独的文章,我们指的是:

  • A组是指独自居住、有长期健康问题的丧偶老年房主
  • C组为已婚、身体健康、与他人同住的业主组
  • D组为未婚、中年、有长期健康状况组
  • E组是年轻的租房者,对自己的群体缺乏信任和归属感

最优组数

LCA过程包括使用指定的不同数量的组运行算法。分析师首先指定一个组,然后是两个组,然后是三个组,依此类推。每次运行都产生一个拟合优度统计量,即贝叶斯信息准则(BIC)。在探索性LCA中,使用BIC系数来确定最优类数(Lin和Dayton 1997)3.),据此选择BIC系数最小的组数为最佳模型。7个等级的模型被认为是最好的-见附录2 1到8个等级的模型的BIC系数。

表1中,A、C、D、E组孤独感分离良好。这些群体的孤独感反应与样本的平均比例至少有15%的差异。纵观整个样本,46%的人属于“更经常孤独”的类别,而在A组中,69%的人属于“更经常孤独”的类别——比样本的平均比例要高得多。

确定的组取决于LCA模型中包含的变量。如果包括其他变量,那么产生的组就会不同。与其他一些统计技术(例如,逻辑回归)不同,变量选择由算法自动化程度较低,更多地依赖于分析师的选择。单一变量的有无会改变是否能实现良好的分离,和/或任何组如何被发现是最优的。实际上有无数的变量和代码的组合,不可能全部测试。

其他描述性统计

在最终的LCA算法中,只包含了如表1所示的变量和类别。总的来说,在模型中包含了额外的变量,就孤独感而言,集群之间的分离程度较差。就孤独而言,良好的分离是主要的焦点。然而,当包含更少的变量时,LCA模型的信息量变得更少,因为在其他特征方面的差异更少,这仅仅是因为这些变量没有包含在模型中。因此,这是一种平衡,一方面是对孤独产生良好的分离,另一方面是包括更多有助于描述群体的变量。表2显示了所有七个组的附加描述性统计特征。

注意事项:潜在类分析

  1. 然而,在LCA模型中测试的变量并不仅限于这些变量。重要的是要记住,不重要的变量仍然可能有助于良好的分离,从而产生有意义的分组。

  2. Celeux和Soromenho(1996),“评估混合模型中簇数的熵准则”。

  3. Lin TH和Dayton CM(1997),“非嵌套潜在类模型的模型选择信息标准”,《教育与行为统计杂志》,第22卷,第3期,第249至264页。

回到目录

5.附录1:逻辑回归-统计解释和表格

所考虑变量的初始列表:

  • 面试模式
  • 年龄段
  • 种族
  • 感情状态
  • 收入
  • 城市或农村分类
  • 地区
  • 住房任期
  • 残疾
  • 一般健康
  • 教育
  • 数字的技能
  • 就业状况
  • 成人数量
  • 儿童人数
  • 志愿服务
  • 关怀的责任
  • 同意,邻居们团结一致
  • 是否和邻居聊天不止是打个招呼
  • 信任邻居
  • 属于社区
  • 宗教信仰(即使没有实践)
  • 对当地居住环境的满意度
  • 在过去的两年里,这个地区是变好了还是变坏了
  • 在附近住了几年
  • 当地服务和便利设施的数量
  • 多重剥夺指数
  • 国家统计及社会经济分类(NS-SEC)
  • 这个地方是不同背景的人相处融洽的地方。
  • 与家人或朋友见面的频率是多少
  • 你多久和家人或朋友通过互联网进行一次电话、视频或音频通话
  • 多久给家人或朋友发一次电子邮件或写信
  • 你多久和家人朋友发一次短信

被删除的变量本身不是重要的预测因素:

  • 宗教被删除,因为它与孤独不相关使用皮尔逊积矩相关性。相关系数在负1到正1之间,宗教与孤独之间的Pearson积矩相关系数为0.00148 (p = 0.8827)。

当回归模型的一部分时,变量被删除为不显著的预测因素:

  • 面试模式
  • 种族
  • 城市或农村分类
  • 地区
  • 住房任期
  • 教育
  • 数字的技能
  • 就业状况
  • 儿童人数
  • 志愿服务
  • 同意,邻居们团结一致
  • 信任邻居
  • 在过去的两年里,这个地区是变好了还是变坏了
  • 当地服务和便利设施的数量
  • 多重剥夺指数
  • NS-SEC
  • 这个地方是不同背景的人相处融洽的地方。
  • 你多久和家人或朋友通过互联网进行一次电话、视频或音频通话
  • 多久给家人或朋友发一次电子邮件或写信
  • 你多久和家人朋友发一次短信

最终的模型

调查程序

回到目录

6.附录2:潜在类分析R输出

回到目录

联系详情方法

爱德华·派尔和丹妮·埃文斯
equalities@ons.gov.uk
电话:+44 (0)1329 447141