用于医疗保健专业人员

研究方法和报告

预后和预后研究:验证预后模型

BMJ2009年;338年doi:https://doi.org/10.1136/bmj.b605(2009年5月28日出版)引用这个:BMJ2009;338:b605
  1. 道格拉斯·G奥特曼教授在医学统计数据1,
  2. 伊冯Vergouwe临床流行病学助理教授2,
  3. 帕特里克·罗伊斯顿高级统计学家3,
  4. 卡雷尔G M卫星临床流行病学教授2
  1. 1医学统计中心,牛津大学,牛津OX2 6美圆
  2. 2朱利叶斯健康科学中心和初级保健,乌特勒支大学医学中心,荷兰乌得勒支
  3. 3本临床试验单位,伦敦NW1 2哒
  1. 函授:D G奥特曼doug.altman在{}csm.ox.ac.uk
  • 接受2008年10月6日

预后模型的临床价值,除非他们在其他工作样本所示。道格拉斯·奥特曼和他的同事们描述如何验证模型和讨论的一些问题

我们开发的预测模型,在本系列的上一篇文章,1收益率分数能够预测未来事件的风险患者个体或团体和病人的分层这些风险。2一个好的模型可以使患者分为风险组的合理可靠的分类不同的预测。表明预测模型是有价值的,但是,它并不足以表明,它在初始开发成功的预测结果数据。我们需要证据证明该模型对其他组的病人表现良好。13在本文中,我们讨论如何评估预后的性能模型的新数据。45

总结分

  • 多组模型不应该用于临床实践

  • 当验证预后模型、校准和歧视应该被评估

  • 验证应该做在一个不同的数据,用于开发模型,最好是来自患者在其他中心

  • 模型可能不执行在实践中因为开发方法的缺陷或由于新的样本太与原来不同

为什么预后模型不能预测吗

各种统计或临床因素可能导致预后模型应用到其他病人时表现不佳。46模型的预测可能不会重现,因为缺乏设计或造型方法的研究,推导出模型,如果模型是overfitted,或者一个重要的预测是缺席模型(这可能很难知道)。1表现不佳的病人也可以来自不同病人的设置在新的和推导的样本,包括差异在医疗保健系统中,测量的方法,和病人的特征。我们认为这些问题在本系列的最后一篇文章。7

设计验证的研究

评估的主要方法或验证预测模型的性能在一个新的数据集比较观察和预测事件率组患者(校准)和量化模型的区分能力的病人做或不做经验感兴趣的事件(歧视)。89模型的性能可以评估使用相同的源派生的最新数据样本,但是一个真正的评价generalisability(也称为可移植性)需要从其他地方评价数据。我们考虑三个越来越严格的验证策略。4

内部验证一个常用的方法是将数据集随机地分为两部分(通常是2:1),使用第一部分开发模型(通常称为“培训”),并评估其预测精度在第二部分。这种方法会给乐观的结果,因为这两个数据集非常相似。的非随机分离(例如,通过中心)可能是合适的,因为它减少了相似的两组患者。14如果可用数据有限,模型可以对整个数据集开发和技术数据的重用,交叉验证和引导等,应用于评估性能。1内部验证是有用的,但它不能提供信息模型的性能。

时间的验证——替代方法是评估模型的性能在随后的病人来自同一个中心(s)。610时间验证原则上没有什么不同分裂一个数据集的时间。显然会有许多相似性之间的两组患者和临床和实验室技术评估中使用它们。然而,时间验证是一个前瞻性的评估模型,独立于原始数据和开发过程。时间可以考虑外部验证时间,因此内部验证和外部验证之间的中间。

外部验证——无论是时间还是内部模型的验证检查generalisability,它必须使用新收集的数据从一个适当的(类似的)病人在不同的中心。数据可以回顾数据和外部验证预测模型是可行的,需要长期随访收集足够的结果事件。显然,第二个数据集必须包含数据模型中的变量。外部验证的基本的设计问题,如样本选择和样本大小,得到了有限的关注。11

比较预测和观察

适当的验证要求我们使用完全指定现有的预测模型(也就是说,所选变量及其系数)来预测结果为病人在第二个数据集,然后比较这些预测和病人的实际结果。分析使用每个单独的事件概率计算的风险评分从第一个模型。1

校准和歧视应该被评估。1校准可以通过策划评估事件的观察比例对组织所定义的范围的预测概率预测的风险,因为在前一篇文章讨论。1这个情节可以伴随着Hosmer-Lemeshow测试,12虽然测试的统计能力有限评估校准差,过分敏感的非常大的样本。分组数据,在下面的例子中,一个χ2测试可以用来比较观察和预测事件的数量。也可能有助于比较观察和预测结果组病人定义为关键变量,如诊断或人口子组。歧视可能是总结的c指数(-操作者曲线下的面积)或R21

这个数字显示了一个典型的例子不校准模型。13线拟合的数据非常不同于对角线代表完美的校准。斜坡的范围远小于1表明,观察到的风险比预测的范围小得多的风险。穷人的歧视低所表现出的模型的能力c指数为0.63(95%可信区间0.60到0.66)验证样本相对于0.75(0.71 - 0.79)在开发样品。13

Calibration plot for a scoring system for predicting postoperative nausea and vomiting.13 Circles indicate the observed frequency of events per tenth of predicted risk, with vertical lines representing 95% confidence intervals. The solid line shows the relation between observed outcomes and predicted risks

">图1

校准情节的评分系统预测术后恶心和呕吐。13圆圈表示事件的观测频率每十预测风险,与垂直线代表95%的置信区间。实线显示观察结果和预测风险之间的关系

这可能有助于prespecify可接受的性能模型的校准和歧视。如果性能是实现,模型可能适用于临床使用。然而,它是不清楚如何确定什么是可以接受的,尤其是在预后评估表现仍将是必要的,甚至适度模型可能会比医生的评估做得更好。1415

案例研究

我们说明上述观点有四个案例研究与不同的性能特征。

预测手术死亡率的病人接受了心脏手术

欧洲心脏手术风险评估系统(EuroSCORE)开发使用来自八个欧洲国家的数据来预测手术死亡率的病人接受了心脏手术。16分数结合九个病人因素和八个心脏因素;它已经成功地在欧洲其他的群组研究中进行验证。Yap和同事检查的性能EuroSCORE在澳大利亚队列与推导队列不同,通常有更高的死亡风险。17例如,41%的澳大利亚人年龄超过70岁的人相比,27%在欧洲人群中,有15%v10%,最近的心肌梗死。还观察到的死亡率在澳大利亚群体一直远低于预测EuroSCORE模型(表1所示)。观察到三个风险组死亡率是只有一半的预测死亡率。模型的校准因此在这些新病人是穷人,尽管它保留在新的人口的歧视。

表1

预测和观察到的死亡率由EuroSCORE风险级别为澳大利亚患者在冠状动脉旁路移植17

把这个表:

有很多可能的解释为这个可怜的性能包括不同的缺血性心脏病的流行病学和获得卫生保健的差异。此外,EuroSCORE模型是基于数据从1995年,甚至可能不能反映当前的心脏外科实践在欧洲。然而,在这种情况下,很容易调整原始模型,以便校准和预测成为新的人口的准确,同时保留歧视。1819然而,这个更新模型可能需要进一步验证。我们将在下一篇文章中进一步讨论这个问题。7

结直肠手术后预测术后死亡率

连续前瞻性研究招募了1421名病人在结直肠手术对癌症或憩室的疾病从81年中心于2002年在法国。20.多元逻辑回归分析在大量的因素识别四个显著预测术后死亡率。都是二进制的,虽然两个(年龄和体重)最初是连续的。调查人员发现,在场的四个因素的数量是一个强有力的预测死亡率(表2)。

表2

结直肠手术后的死亡率与风险因素出现在两个群体的数量20 21

把这个表:

模型的开发可以批评:四个变量选择从众多的候选人中,死亡的数量很小,连续变量是二分,和作者取代了通过一个简单的回归模型计算的因素存在,忽视的相对权重(回归系数)四个预测因子。然而,当这种风险评分测试新系列的1049名患者从2004年的41个中心招募,21死亡率在比分类别(一种校准)类似于最初的研究(表2)。这两个数据集显示强大的风险梯度具有良好的歧视,但对于一类观察和预测事件的概率有很大的不同。这个例子展示了如何判断一个模型验证的困难。

非侵入式正压通风的预测失败

非侵入式正压通风可以减少死亡率在慢性阻塞性肺疾病患者恶化,但在一些病人不能。预后模型被开发来识别高危病人通风的失败,在入学后两个小时。使用数据从1033年病人承认14个不同单位,研究人员使用逐步逻辑回归来开发一个模型包括四个连续变量(APACHE II评分,格拉斯哥昏迷评分、pH值和呼吸速率)每个分成两个或三个类别。22模型失败后两个小时通风的c指数为0.88。预测概率的事件千差万别为变量的不同组合从3%降至99%。

相同的研究人员所作的验证他们的模型使用数据从一个独立样本的145名患者承认三个单位目前尚不清楚这些攻击是否在原来的14个单位。Hosmer-Lemeshow测试显示无显著差异(P > 0.9)之间观察到的数量和预期的失败,和c指数0.83原样品中观察到的类似。高歧视表明模型可以帮助决定患者的临床管理。然而,验证样本的大小可能不足以支持强大的推论。

预测并发症急性咳嗽的学龄前儿童

减少临床不确定性关于学龄前儿童向初级护理急性咳嗽、干草和同事派生并发症的临床预测规则。23他们使用逻辑回归来检查几个潜在的预测和产生一个简单的分类使用两个二进制变量(发烧和胸部迹象)来创建四个高危人群。并发症的风险变化从没有症状的6%与40%(表3)。的c指数为0.68。

表3

号码(百分比)学龄前儿童发展中并发症后向初级护理急性咳嗽的迹象表示

把这个表:

不幸的是,评价模型的第二个数据集未能证实这个分类(表3的值)。24作者提出了一些解释,包括医生可能优先有症状患者抗生素治疗。这可能只是主要数据包括太少孩子发达并发症允许可靠的造型。

讨论

验证研究是必要的,因为在原始数据的表现很可能是乐观,6但是时间和(尤其是)外部验证的研究。25

这似乎是人们普遍认为,在多变量预测模型的统计学意义显示了预测模型的有效性。同时,当评估模型与新数据作者似乎要计算P值和得出结论,验证是满意的如果没有显著区别,说,观察和预测事件,例如基于Hosmer-Lemeshow测试。无论是观点是correct-P值不能提供令人满意的答案。

验证研究中,我们评估模型的性能是否在新数据(其校准,尤其是歧视)匹配,或接近,它的性能的数据。但即使性能不太好,可能仍然是临床上有用的模型。4因此,模型的有效性的评估要求临床判断,取决于上下文。

模型是“快照在地点和时间,而不是基本的真理。”26如果验证样本的病例组合大大不同于推导样本模型可能会失败,尽管它可能会通过简单的调整,提高模型在上面的EuroSCORE例子中,甚至包括新变量(s)与不同的病例组合和发现预后的新样品。27例如,范围的患者的年龄的推导和验证样本可能显著不同,这年龄可能不认可推导设置为一个重要的预后因子。此外,模型的性能可能随时间变化和重新评估可能若干年后表示。我们考虑这些可能性进一步在下一篇文章中。7

简单的模型和可靠性的度量标准是重要的发展中临床有用的预后模型。228经验表明,更复杂的模型倾向于给过于乐观的预测,特别是在广泛的变量选择已经执行,29日但也有明显的例外。

大多数预后研究的目标是创建临床价值的风险分数或索引,高危人群的定义应该主要由临床而不是统计标准。如果临床医生将未经处理的病人至少有90%的机会活下来五年,会应用积极的治疗预后生存或少30%,然后在中间的情况下,将使用标准治疗三个预后组似乎明智的。模型的验证将调查事件的观察比例是否相似组患者与其他设置和分离在这些组织的结果是否维护。

一些预后模型通常用于临床实践,可能是因为大多数没有外部验证。2528被认为是有用的,应该临床风险评分可信、准确与良好的区别的能力(校准),有普遍性(外部验证),在理想的情况下,被证明是临床,尤其是近几年来提供有用的附加信息临床医生治疗决策,从而改善患者的结果。2528量化的性能是至关重要的预后模型在一系列新病人,最理想的情况是在一个不同的位置,在应用模型在日常实践之前指导病人护理。虽然罕见,时间和外部验证的研究似乎变得越来越普遍。

笔记

引用这个:BMJ2009;338:b605

脚注

  • 本文是一个系列的第三四旨在提供一个可访问的预后研究的原则和方法的概述

  • DGA由英国癌症研究中心的支持。KGMM和青年志愿服务由荷兰科学研究组织(ZON-MW 917.46.360)。公关是英国医学研究委员会的支持。我们感谢伊夫-潘尼斯,阿拉斯泰尔干草澄清一些细节的案例研究。

  • 贡献者:本系列的文章被DGA的构思和计划,KGMM,公关和青年志愿。DGA写本文的初稿。所有作者导致后续修订。DGA担保人。

  • 利益冲突:没有宣布。

  • 出处和同行评审:不是委托;外部同行评议。

引用

Baidu
map