开发和外部验证的学习算法来识别和定位蛛网膜下腔出血CT扫描
做出评论
看到评论
文摘
背景和目标在医学成像,数量有限的深度学习训练算法外部验证,公开发布。我们假设深学习算法可以被训练识别和定位蛛网膜下腔出血(SAH)头部电脑断层扫描(CT)扫描和训练模式时执行令人满意地使用外部和真实数据进行了测试。
方法我们使用头部CT图像的病人承认赫尔辛基大学医院在2012年和2017年之间。我们手动分割(即。,delineated) SAH on 90 head CT scans and used the segmented CT scans together with 22 negative (no SAH) control CT scans in training an open-source convolutional neural network (U-Net) to identify and localize SAH. We then tested the performance of the trained algorithm by using external data sets (137 SAH and 1,242 control cases) collected in 2 foreign countries and also by creating a data set of consecutive emergency head CT scans (8 SAH and 511 control cases) performed during on-call hours in 5 different domestic hospitals in September 2021. We assessed the algorithm's capability to identify SAH by calculating patient- and slice-level performance metrics, such as sensitivity and specificity.
结果在外部验证组1379例,137例SAH正确的算法确定了136(敏感性99.3%,特异性63.2%)。49064轴头CT片,该算法识别和本地化SAH的2110片1845年长官(敏感性87.4%,特异性95.3%)。519年连续紧急头部CT扫描成像在2021年9月,该算法正确地识别所有8例SAH(敏感性100.0%,特异性75.3%)。限制电平(27167年总轴向片)的敏感性和特异性分别为87.3%和98.8%,分别确定的算法和局部SAH 58 77片的长官。算法的性能可以通过web服务测试。
讨论我们表明,共享算法识别SAH例限制电平的高敏感性和特异性高。除了公开共享一个高性能的深度学习算法,我们的工作介绍不常使用的方法设计、培训、测试和开发医学影像诊断报告深度学习算法。
证据的分类这项研究提供了第三类证据,深入学习算法正确标识上的蛛网膜下腔出血的CT扫描。
术语表
- CE=
- 公司产品;
- DICOM=
- 医学数字成像和通信;
- 哈=
- 赫尔辛基大学医院;
- ICD =
- 国际疾病分类 ;
- MPR=
- 多平面重组;
- NIfTI=
- 神经影像信息学技术创新;
- 政治行动委员会=
- 图像存档和通信系统;
- 长官=
- 蛛网膜下腔出血;
- U-Net=
- 神经网络
使用头部CT成像继续增加成年人在21世纪。1此外,符合的增加趋势有利于卫生保健系统的集成和整合,许多国家都在待命时间集中放射学服务。这将导致更高的数量和复杂性随叫随到的成像情况下,进而放射科医生随叫随到的地方越来越大的压力。事实上,整个待命工作负载为放射科医生在过去的15年里翻了两番。2
头部CT扫描是最经常要求在医院职工业余成像研究。头部CT扫描正常工作时间以外大多要求紧急部门,发现在一个紧急的头部CT扫描可以改变患者的医疗护理。也许最常见的2病人组与紧急头部CT扫描成像是谁头痛和中风患者来说,任何延迟排除问题,如颅内出血,可能是悲剧性的。颅内出血的类型,确诊蛛网膜下腔出血(SAH)是最令人担忧的,因为如果频繁的原因,也就是说,破裂颅内动脉瘤,不及时治疗,至少75%的今天的SAH患者在一年内死亡。3在中年人,SAH死亡超过缺血性中风死亡的数量,和SAH死亡实际上是最常见的一种中风死亡尤其是中年妇女。4
虽然被忽视或误诊的头部CT发现率较低,特别是在学术中心,误解发生,特别是在几个小时后,通常由不太有经验的临床医生。人们已经发现,职工业余头部CT报告提供的学术大中心放射居民在4.6%的情况下是不准确的。5然而,幸运的是,只有0.62%的情况下,不确定或不准确报道是颅内出血(这些都是sah的三分之一)。5这些事实,本研究主要的研究问题是解决的是如下:深入学习算法可以正确识别和定位上的SAH头部CT扫描。
方法
头部CT图像深度学习培训
我们提取头部CT图像从赫尔辛基大学医院(嗯)图像存档和通信系统(PACS)归档。首先,使用哈电子医疗记录,我们确认(基于icd -类别代码I60) SAH患者治疗哈2012年和2017年之间(表1)。同样,我们创建了一个负对照组(没有SAH头部CT扫描)通过搜索患者承认哈应急部门在2011年和2018年之间(表1),与头部CT扫描成像,在同一承认天出院,出院诊断头痛(icd -码R51和G44.2)。因为头部CT进行各种研究多层螺旋CT扫描仪,重建切片厚度2和5毫米之间的不同(表1)。同样,使用成像协议不同,扫描仪,和医院。第二,成千上万的潜在病例和控制,我们提取头部CT的研究确定pac存档患者和对照组,其中包含超过2100万个数字存储医学数字成像和通信(DICOM)成像研究。提取的DICOM图像系列的SAH患者由轴向重建的多平面重组(MPR)卷成像与4种不同的CT扫描仪哈医院(表1)。类似的图像数据组对照组来自5个不同的CT扫描仪(表1)。2021年,哈有19个不同的CT扫描仪。第三,slice-wise审查后提取DICOM图像系列,2研究的作者(A.T.和抗议)选择98 MPR卷对应96 SAH患者,1例有2随访CT扫描,和985年MPR卷对应949年控制头痛的人(没有在头部CT扫描发现SAH), 18人至少两次成像。除了长官,没有其他入选标准是应用(如人口、医疗干预的结果(如。,aneurysm clips, aneurysm coils, and ventricular catheters], image artifacts, image quality, image reconstruction methods, or image resolution) for the selected MPR volumes of patients with SAH.
CT图像分割的SAH头
图1和我们之前出版6注释和分割的概念。总之,使用开源工具dcm2niix,我们选择的DICOM图像转化成神经影像信息学技术倡议(NIfTI)打开的文件格式进行进一步处理。一个训练有素的医学图像分析(A.T.)(即执行手动分割任务。,delineated SAH evident on head CT scans) using the open-source software ITK-SNAPe1和3 d切片机。e2这之后,研究神经外科医生(抗议)审查和调整训练集的分割,但不是一个数据集分割评估进行像素级算法性能。我们执行调整分段数据只有在共同(A.T.和抗议)协议实现。这些细分(即。,ground truths) were drawn only onto the axial MPR planes, since the axial MPRs are commonly used in clinical diagnostics.
图像预处理的训练
我们downsampled 512×512图像分辨率256×256,换句话说缩减规模NiFTI形象片的2倍在水平和垂直方向。在将采样,我们保持原来的块的数量每扫描。我们剪头CT扫描的强度使用的窗口范围[0,150]Hounsfield单位。这后,我们把分割和预处理NiFTI MPR卷为训练集和测试集。
培训的学习算法
在培训中,我们使用一个开源和标准二维5级U-Net-type架构,7,8在每一层由2层卷积max-pooling紧随其后的降尺度路径和upsampling升级。特征图的数量/每一层是30岁,60岁,120年、240年和480年。简化,U-Net卷积神经网络,设计特别是对医学图像分割。U-Net架构是基于完全卷积层,因此,还可以训练用更少的图像产生准确的分割。在训练中,网络学习对像素进行分类或正面或负面,基于分段(即。感兴趣的,每个像素包括病变概述了积极的)训练图像。当美联储输入图像穿过每一个卷积层,产生的所谓的特征图叠加(即不同的过滤器。、数学函数)在输入图像和滤波器的输出值函数特征的地图。功能地图大小变化在每一个卷积层,和网络学会识别lesion-specific形象特征。训练后,网络与原始图像(不细分),美联储和训练U-Net创建一个分割掩模(即。轮廓识别病变)作为视觉输出。
我们使用训练集训练的简单算法部分长官,而小测试数据集(8头CT扫描)是用于测试训练模型的训练过程。98头CT扫描的长官,我们随机挑选90培训。这90 MPR卷的长官,23头CT扫描在入学之前任何侵入性治疗。剩下的67 MPR卷术后,其中40包括动脉瘤夹和clip-related工件,包括动脉瘤22线圈和coil-related工件,和5卷显示心室导管。我们用剩余的8 98 MPR卷的SAH患者小测试数据集在训练,不断评估模型的性能。的负面(SAH)对照组985头CT扫描,我们22用于训练。
外部验证
外部验证,我们使用两个不同的数据集,即苏黎世和CQ500数据集(表2)。这些数据集没有用于任何培训或测试阶段。我们评估了算法识别SAH的能力和报告结果基于病人——和限制电平注释。我们计算病人和限制电平9苏黎世的性能指标数据集。只因为CQ500数据集包括大小写级(不限制电平)注释,我们只计算患者的立场为CQ500指标数据集。
苏黎世外部数据集
瑞士苏黎世的合作者,头部CT图像中选择和提取的SAH患者连续100年和1000年连续对照组(没有SAH)来自苏黎世大学医院的PACS系统。获取真实的真实的临床数据从另一个大医院,我们没有提供其他的建议和控制选择过程。此外,我们建议不限制申请CT扫描仪,成像参数,或成像日期。我们为合作者提供了训练算法,整个外部验证过程是在苏黎世独立进行的。DICOM文件转换为使用dcm2niix NiFTI文件的软件。预处理进行了哈研究小组提供的脚本,和这些操作是离线机器上运行(AMD 1950 x 32-Thread Windows 10日,64 GB的RAM, GTX 980 Ti)。算法的分割使用ITK-SNAP视觉检查,和2评级机构(初速和V.S.)计算限制电平和患者的立场性能指标。
外部数据集CQ500开源
CQ500开源数据集的一个子集9及其患者的立场注释从3评级机构作为地面真理被用作另一个外部数据集进行验证。我们认为病人的头部CTs SAH案例当所有3评级机构相应的注释。同样,头部CT扫描被认为是消极的(控制)如果没有3利率发现扫描的颅内出血。最后一组由37头CT扫描与长官和242头没有颅内出血的CT扫描。
模拟真实的验证
因为外部验证设置从苏黎世起源于一个大型高等大学医院神经外科单位,提供紧急护理主要是无意识的病人和病人已经诊断为病变出现头部CT扫描,我们连续收集了所有紧急头部CT扫描成像在5哈医院2021年9月,没有神经外科服务。这5个医院和他们的病例组合可能因此更像小待命与头部CT成像设备,但没有神经外科医院服务。所有收集的CT扫描是匿名(没有可用放射报告),和注释(限制电平)为SAH后3的合作者(表示抗议,惠普,and A.T.). Similar to the CQ500 data set, an agreement of all 3 raters was considered a ground truth. After annotation, we analyzed all head CT scans using the algorithm.
进行像素级精度
因为无论是外部验证数据集和真实的验证数据集被分割,也就是说,它们不包括进行像素级的信息真阳性和阴性,1合著者(A.T.)分段附加49 SAH情况如前所述测试模型进行像素级的表现。合著者(A.T.)随机选择1237年46 SAH头部CT的研究确定SAH患者(eTable 1,links.lww.com/WNL/C554),包括额外的3 SAH病例的诊断SAH最初是错过,尽管积极的头部CT影像学表现。10分割后,我们分析了所有头部CT扫描使用算法。
后处理的分割
敏感性分析,我们简单的后处理步骤适用于患者的立场分割减少假阳性病例数。苏黎世的数据集,我们视觉阈值情况下的数量只有1片一个像素集群分段是积极的。这一个集群中只有1积极的部分被认为是消极的(未检测到SAH)。CQ500和哈2021年9月的数据集,我们计算一个Python脚本评估阈值相似的,也就是说,如果只有1片1分段SAH集群,案件被认为是负面的。
统计分析
CQ500和患者,患者的立场指标,切片,和哈数据集进行像素级指标自动计算使用Python脚本计算这些任务。这些指标包括敏感性,特异性,假阳性率,假阴性率,和准确性。我们进行统计分析与Python包与matplotlib numpy和生成统计图。
道德的考虑
当地的机构审查委员会批准哈回顾性数据收集和研究设计和获得一个知情同意授予的豁免(溶血性尿毒综合征/ 365/2017,溶血性尿毒综合征/ 163/2019,溶血性尿毒综合征/ 190/2021)。据芬兰立法,不需要独立的伦理委员会批准为回顾性研究,涉及二次使用注册表或归档数据。我们收集所有成像数据算法训练的哈,由23个独立的医院和集水面积约220万居民。所有5芬兰大学医院,包括哈,公立非营利组织,为所有人提供三级医疗服务在芬兰,不管社会经济地位,保险状态,或种族。因此,我们相信哈成像算法训练的数据本身是不带偏见的或故意歧视。我们进行这项研究符合《赫尔辛基宣言》。11在瑞士的苏黎世州的伦理委员会批准的这项研究是(KEK Nr。2020 - 02725年)和苏黎世大学医院的数据治理委员会(Nr dup - 66)。
数据可用性
芬兰的医疗数据二次使用可以通过FINDATA(社会和健康数据允许权威根据二级数据Act)。芬兰和瑞士医疗使用的数据不能完全共享。访问CQ500图像集可以通过一个网站。e3与他人共享算法的代码,我们上传GitHub库的代码。e4为了可靠性和透明度,我们建立了一个网站,e5,任何人都可以通过上传头部CT扫描测试算法性能进行分析。
结果
外部验证
外部验证数据集由1379头CT扫描(137例SAH) (表2)。一些外部验证设置的头部CT扫描成像相同的CT扫描仪(GE发现CT750 HD)用于成像的训练数据集(表1和2)。混淆矩阵显示患者的立场(表3)和限制电平(表4)的结果。图24的例子展示了如何确定的算法和局部(即。分段)长官。整个患者的立场为SAH的敏感性和特异性分别为0.99和0.63,分别为(表3)。49064年1379头CT扫描是由重建轴向片,其中2110包括SAH (表4)。限制电平的敏感性和特异性分别为0.87和0.95,分别为(表4)。
算法不正确分类1(0.7%)的137例SAH负(表3eFigure 1links.lww.com/WNL/C554)。在片层,假阴性错误分类率为12.6% (表4)。的假阳性,外部验证的结果显示36.8%的假阳性率在病人级(表3)。一些假阳性病例比SAH其他异常发现。例如,CQ500 34假阳性病例的数据集,该算法错误分段1肿瘤,1个工件,与钙化8例,23例无异常发现。同样,423年的假阳性病例在苏黎世的数据集,138(32.6%)术后血肿/止血密封剂,54(12.8%)缺血性病变,23(5.4%)慢性硬脑膜下血肿,21例(5.0%)肿瘤。在片层,假阳性率4.7% (表4)。
模拟真实的验证
连续的519紧急头部CT扫描成像在待命时间2021年9月在5小哈医院神经外科服务,该算法识别所有8例SAH (表5)。5小医院的CT扫描仪都是新的,不同于那些用于成像的训练数据集。患者的立场敏感性和特异性分别为1.00和0.87,分别为(表5)。限制电平的敏感性和特异性分别为0.75和0.99,分别为(表5)。在片层,假阳性率1.2% (表5)。病人和限制电平irr连续519头CT扫描是高(eTable 2,links.lww.com/WNL/C554)。
进行像素级精度
因为外部验证数据集和模拟真实的验证数据集包括分割图像,我们分割和分析测试更多的病例49 SAH模型的进行像素级的性能(eTable 1,links.lww.com/WNL/C554)。限制电平的敏感性和特异性分别为0.78和0.97,分别(eTable 3)。在片层,假阳性率3.3% (eTable 3,links.lww.com/WNL/C554)。的敏感性和特异性进行像素级0.53 > 0.99,分别(eTable 3,links.lww.com/WNL/C554)。进行像素级假阳性率< 0.01%。据坊间传言,该算法还发现了3 SAH病例,在现实生活中最初误诊(eFigure 2,links.lww.com/WNL/C554)。中使用的CT扫描仪成像SAH 49例(eTable 1)大多是一样的扫描仪用于成像训练集(表1)。
在线验证门户网站
我们建立了一个网站,e5测试的准确性,任何人都可以在SAH算法通过上传(拖拽)头部CT扫描进行分析。轴向MPR重建应该转换(与任何开源DICOM-to-NiFTI转换器)NiFTI格式上传之前完全匿名化图像数据。网站部署,分析1头CT扫描与30 - 40轴MPR片需时约30秒。分割结果在颜色视觉检查。网站打开后180天在线出版。
证据的分类
这项研究提供了第三类证据,深入学习算法正确标识上的蛛网膜下腔出血的CT扫描。
讨论
呈现深学习算法确定SAH正确地在136年的137例(99.3%)成像与7不同CT扫描仪2国家(印度、瑞士)。唯一错过了SAH CQ500数据集的一部分(eFigure 1,links.lww.com/WNL/C554)。在特异性方面,该算法不正确分割SAH 457(36.8%)的1242年控制。2200年限制电平假阳性率(4.7%)每46954轴向重建CT片。标准的重建在临床使用的头部CT扫描诊断通常包含30 - 40轴MPR片。如果该算法用于临床,该算法将错误报警临床医生对SAH正常(即约三分之一。,没有SAH)头部CT扫描,在这些情况下,1 - 2错误分割片应该仔细检查修改诊断。在设计算法时危及生命的紧急情况,灵敏度优化应接近100%(即。,没有错过的情况下),尽管100%的敏感性是一个挑战性的目标甚至对人类的眼睛。如果这样的算法也有一个非零的假阳性率特异性(小于100%),这要求医生检查每个积极的情况下(也真阳性病例)。这可能确保算法不是取代临床医生或放射科医生,但在现实的医疗实践行为更像是一个协作的同事。
训练有素的成像算法通常基于大量的图像。这同样适用于算法为颅内出血,通常与大量的训练带注释的图像。12我们的方法使用少量的单词训练图像进行像素级分割,而不是限制电平注释可能会鼓励其他人采取类似的策略培训深入学习算法。训练图像分割时,大型图像数据集不太经常需要,深入学习项目也成为可能在较小的医疗中心。除了高质量的培训,验证过程是至关重要的。虽然在内部验证的敏感性和特异性成像算法SAH可以很高,他们的性能指标测试与外部临床数据往往妥协。12因为之前的研究报道深度学习算法,定位和识别SAH头部CT扫描稀缺,任何比较我们和以前的研究是很困难的。开创性的研究基于CQ500数据集,供公众,最高的患者的立场敏感性和特异性识别(不是本地化)SAH分别为92%和90%,分别。9患者的立场的结果另一个深度学习解决方案,结果被验证使用外部数据集的一个合理的大小(> 100阳性病例),显示敏感性和特异性分别为85%和97%。13在一个大的外部验证的研究世界上第一个和最广泛使用的商业深度学习解决方案(这只能解释薄0.5 - 1毫米的轴向现代(> 64片)的CT图像CT扫描仪)确定颅内出血,识别SAH的患者的立场灵敏度为93%。14显然,很多以前的算法可能不仅优化了敏感性也为特异性的敏感性。为了避免深学习模型超过临床医生,我们的方法是达到一个非常高的敏感性和特异性较低,在这种情况下,临床医生深度合作学习模式可能会变得更有可能。感兴趣的,有56%的假阳性在苏黎世数据集实际上是其他病理病变,如术后血肿。实际上,算法的精度,特别是假阳性率可以取决于自然混杂因素(其他blood-containing病理病变)和用途(例如,不是用于术后成像)。
这项研究的优势之一可能是训练数据集包括术前和术后的工件和扭曲。训练数据集是使用不同的CT扫描仪成像,从而可能提高算法的普遍性。此外,由于外部验证是由使用国际的数据集,因为所有连续的模拟真实的验证数据集包括头部CT扫描成像在2021年9月与5最近买了5种不同的医院现代CT扫描仪(所有这些都是用于成像其他头部CT扫描在这项研究),这些结果可能是可概括的。此外,基准测试结果与开源CQ500数据集是可行的。不仅是一般推荐使用开源深学习工具也开源数据集时可用。我们使用开源工具分割、文件转换和算法开发。尽管没有在印度影响图像的选择过程和瑞士,这些数据集可能仍然在某种程度上代表最优情况下对我们的算法,因此结果可以被高估。因为复制结果基于机器学习算法由其他研究小组几乎是不可能的,我们还建立了一个网站,e5,任何人都可以在测试算法的性能通过上传NiFTI格式(即头部CT图像。、匿名数据)进行验证。此外,许多学习算法不能说明,可视化,遗传算法和描述异常影像学表现,而突出了长官。这个可视化可能缓解,系影像判读。15进一步来说,使用U-Net架构很小,因此可以部署在电脑和设备计算能力。最后,我们共享算法为研究目的和GitHub的进一步发展。e4甚至低收入国家可以受益于这种解决方案。
训练数据集包括居住在芬兰。因为芬兰人基因被认为是欧洲人口的一个独立的族群,16我们的算法可能有偏见。特别是数据集之间的假阳性率不同。这取决于比赛是否还有待研究。此外,我们缺乏一个公司产品(CE)标记算法,属于高风险类(活动花絮,IIb, III)的医疗设备。这种发行CE标志认证评估和昂贵和耗时的过程,和许多大学医院没有能力productize医疗设备。此外,因为只有1数据集分割(即。,every pixel with SAH was delineated), and this data set came from Finnish hospitals, we were able to calculate pixel-level performance metrics only for this data set (eTable 3,links.lww.com/WNL/C554)。因为地面实况细分为SAH头部CT扫描是一个不切实际的测量(即。,it is challenging for experts to agree about true positives and negatives at the pixel level), pixel-level results are clinically less meaningful and seldomly, if ever, reported. However, the pixel-level results were satisfactory (eTable 3,links.lww.com/WNL/C554),假阳性错误分段像素的分割包括小集群(结果未显示)。检查小集群的假阳性像素(进行像素级假阳性率< 0.01%)在几片(限制电平假阳性率4.7%)人均CT体积(患者的立场假阳性率36.8%)将不太可能吃紧的放射科医生或临床医生。然而,根据不同的用途,假阳性像素的数量可以减少使用简单的后处理步骤(例如,通过忽略分散小像素集群)和进一步发展。最后,我们没有在任何紧急情况下测试算法前瞻性部门设置。这是一个不幸的但开发医学成像算法中最常见的缺陷,作为一个医院PACS系统实现研究算法和临床工作流在法律上和技术上一个复杂的过程,除了金融资源可能需要密切合作与pac的解决方案提供者。然而,模拟真实的验证数据集的所有连续病例5医院就像一个前瞻性研究设置在这个上下文。另一方面,患者的立场之间的平衡正面和负面发现每一个医院和机构之间的差别很大,因此,甚至我们现实世界的敏感性和特异性的数据可能是不完全的。
总之,类似训练简单SAH算法可以作为一个有用的工具来协助SAH的诊断在临床设置。因为算法缺乏CE标志,该算法还不能用于临床的目的。
研究资金
作者报告没有针对性的资金。
信息披露
作者报告没有相关的信息披露。去首页Neurology.org/N为充分披露。
承认
这项工作是人工智能的一部分头CleverHealth网络生态系统的分析项目,e6作者感谢生态系统合作伙伴支持这个项目。
附录的作者
脚注
去首页Neurology.org/N为充分披露。资金信息和披露认为作者相关的,如果有的话,年底提供这篇文章。
提交和外部同行评议。处理编辑主编穆美利奴,医学博士,硕士,FAAN。
↵*这些作者的贡献同样这项工作。
编辑、页面549年
类的证据:NPub.org/coe
- 收到了2022年6月9日。
- 接受的最终形式2022年11月7日。
- 版权©2023年作者(年代)。发表的Wolters Kluwer健康,公司代表美国神经病学学会。首页
这是一个开放的分布式根据文章知识共享归属许可4.0 (CC),它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。
引用
- 1。↵
- 2。↵
- 3所示。↵
- 4所示。↵
- 5。↵
- 6。↵
- Thanellas一个,
- PeuraH,
- WennervirtaJ,
- Korja米
- 7所示。↵
- RonnebergerO,
- 费舍尔P,
- BroxT
- 8。↵
- 9。↵
- 10。↵
- VehvilainenJ,
- Niemela米,
- Korja米
- 11。↵
- 12。↵
- 13。↵
- 14。↵
- 15。↵
- 16。↵
- 访问eReferences这里:links.lww.com/WNL/C554