JAMA: 卒中风险预测模型比较


1.png编者按:卒中风险预测模型一般基于人群,采用逻辑回归或Cox生存分析建立。因此,随着人群的变化,以及纳入变量的不同,最终建立的风险模型也会不同。模型在不同人群的表现也会各异。近来,机器学习作为一种更灵活的数据处理技巧以及对多维高通量数据的掌控,常被用于各种风险建模。本次推文介绍的研究对比了不同传统模型和机器学习模型在卒中风险预测的表现,结果发现,模型判别能力无明显差异,此外,所有模型在黑人种族的表现均劣与在白人种族的表现。详情见以下原文翻译解读(原文链接:https://pubmed.ncbi.nlm.nih.gov/36692561/)






01/ 背景


美国心脏协会/美国卒中协会指南建议使用风险预测模型来优化卒中筛查和干预措施。自1991年起,最初的Framingham卒中风险评估模型,通过流行病学研究确定的关键风险因素来估算未来10年发生卒中的风险。随后又引入了其他预测工具,包括修订版Framingham卒中风险评估模型、REGARDS研究中仅依赖自我报告指标的风险分层方法,以及合并队列方程。目前关于这些预测工具在估算卒中风险方面的表现比较数据仍然有限。此外,迄今提出的算法大多依赖于传统回归技术,对于更复杂的机器学习算法可能带来的额外预测价值,相关信息仍然很少。


本研究旨在比较不同卒中风险预测模型在不同亚组(种族、性别和年龄)中新发卒中预测中的表现,并评估新型机器学习技术的附加价值。



02/ 方法


四个队列

本研究纳入四个美国队列, Framingham Offspring, Atherosclerosis Risk in Communities [ARIC],

Multi-Ethnic Study of Atherosclerosis [MESA], REGARDS.


三个已发表模型

  • 合并队列方程模型,基于美国国立卫生研究院NIH)资助的多个队列数据开发,用于指导动脉粥样硬化性心血管疾病的一级预防中的降脂治疗。该模型估算的是包括卒中在内的10年总风险。为了单独估算卒中风险,我们将每个个体的10年总风险乘以卒中事件占动脉粥样硬化性心血管事件的比例。

  • 更新版Framingham卒中模型,使用了5584岁、既往无卒中史的个体数据,这些个体来自Framingham原始队列或子代队列。该模型用于估算未来10年内发生任何卒中的概率

  • REGARDS自我报告模型,仅基于研究参与者自我提供的数据,估算未来10年发生卒中的风险

  • 直接将以上三种模型应用于合并或者单独的四个队列, (不同模型纳入变量如下图)

2.png


两个机器学习模型

  • 基于Framingham OffspringARIC  MESA 的合并数据 (70%训练集,30%优化集),构建了两种机器学习模型:弹性网络正则化的 Cox 比例风险模型(CoxNET)以及随机生存森林模型

  • 将以上两种机器学习模型应用于REGARDS人群


三个校准模型

  • 为了已发表模型与新开发机器模型之间进行公平比较,我们使用Framingham OffspringARIC  MESA 的合并数据对三种已有发表模型进行了再校准。再校准的过程包括:首先计算每位参与者的线性预测值(各变量的回归系数 × 风险因素水平);然后通过将平均10年风险与对应的实际10Kaplan-Meier生存率对齐,估算基线生存率。

  • 将以上三种校准模型应用于REGARDS人群


结局:主要结局定义为缺血性卒中或出血性卒中的发生。事件发生时间或删失时间以自基线起计算的天数表示,基线定义为参与者符合随访条件时所进行的那次体检。随访在12年(4383天)时进行删失处理。模型性能指标在10年时进行评估。


模型评估

  • 模型的判别能力采用 Uno 生存 指数和基于 Brier 评分的R² 指标进行评估。

  • 整体校准度通过比较目标样本中的预测事件发生率与实际观察到的事件发生率进行评估,其中数值为 1 表示理想的平均校准;小于 1 表示风险被高估;大于 1 表示风险被低估。

  • 临床应用价值通过标准化净获益(standardized net benefit)随不同分类阈值变化的曲线进行评

  • 不同模型之间的一致性采用 Spearman 相关系数和 κ 统计量进行评估。



03/ 结果

三个已发表模型

  • 三种模型的判别能力之间并无显著差异:合并队列方程模型的C指数为 0.7295% CI0.71–0.73),弗雷明汉卒中模型为 0.7295% CI0.72–0.73),REGARDS 自我报告模型为 0.7395% CI0.72–0.74)。三者之间的差异均未超过 0.01,且均无统计学显著性(所有 P  > 0.05)。然而,模型在白人个体中的判别能力显著优于黑人个体,在女性中的表现也优于男性。

  • REGARDS 自我报告模型在整体校准方面表现最佳,其观察到的10年卒中发生率与预测发生率之比最接近 11.0595% CI1.00–1.09)。在按种族、性别和年龄分层的亚组分析中,该模型同样表现出较好的校准性能。


校准模型和机器学习模型

  • 在四个亚组(黑人女性、黑人男性、白人女性和白人男性)中,CoxNET 模型的 C 指数在数值上均为最高,但与次优模型相比,其提升幅度均不足 0.02。两种机器学习模型的 C 指数均未超过 0.70,仅在白人女性亚组中例外;然而在该亚组中,其他模型的 C 指数同样也高于 0.70

  • 指数之间的差异较小,这种差异在以净获益(net benefit)衡量的临床应用价值上也仅转化为轻微差别。净获益反映的是在利用预测模型将个体划分为高风险人群时,真阳性与假阳性之间的加权差值。



04/ 结论与讨论

在新发卒中风险的判别准确性方面,现有卒中预测模型和新型机器学习模型并未有显著差异。总体而言,既有预测模型普遍存在风险高估的现象,其中REGARDS 自我报告模型在校准方面表现最佳。


在不同种族之间,事件发生率与模型判别能力存在显著差异。尽管黑人个体的卒中发生率明显高于白人个体,但无论男女,模型对黑人参与者进行风险排序的能力均显著弱于对白人参与者的风险排序能力,这表明需要扩大风险因素的覆盖范围并改进建模技术,以应对观察到的种族差异并提升模型性能。



<  上一篇

分享此文章