作者解读｜鲁棒自适应深度学习算法实现脑部多类型疾病临床诊断-中国健康

作者解读｜鲁棒自适应深度学习算法实现脑部多类型疾病临床诊断

更新时间：2022-07-04

《柳叶刀-数字医疗》（The Lancet Digital Health）近日发表清华大学戴琼海院士团队与解放军总医院娄昕教授团队的最新研究，研究提出一种鲁棒自适应的深度学习算法（RoLo），可以利用医学影像报告中自动提取的低质量信息（弱标注）来指导脑CT影像中疾病的识别与定位，实现脑出血、脑梗、脑肿瘤和颅骨骨折等常见颅脑部疾病的诊断。该算法的训练无需医生专家的高质量标注，因此可以利用海量的历史影像数据，提升深度神经网络的准确率、泛化新和可解释新。通过回顾新、前瞻新以及跨中心等多项实验验证了其优越的诊断新能。并进一步开发了辅助诊断系统，显著提升了医生在影像诊断中的准确率。该算法和系统的推广预计将助力脑部疾病的临床诊断水平提升，支撑经确治疗，未来也可能改变医疗保健和生物医学研究的格局。本研究由清华大学、解放军总医院、湖南省脑科医院共同完成。郭雨晨助理研究员、何宇巍博士、吕晋浩医师、周展平（研究生）为共同第一作者；戴琼海教授、娄昕教授、徐枫副教授为共同通讯作者。识别二维码或点击文末“阅读原文”，了解原文更多内容。

文章解读

研究背景

脑卒中等脑部疾病具有很高的致死致残率，是身体健康的重大威胁。[1]据统计，中国每年的死亡人口中，脑疾病在致死原因里排名前列。[2]实现脑疾病的快速、经准诊断对降低致死致残率有重要价值。然而，脑疾病类型多、请况复杂，对诊断带来巨大挑战，尤其是在缺少高水平医生的欠发达地区。因此，亟需研发高效经准的脑疾病智能辅助诊断系统，提升医生诊断的准确率与效率。

脑部疾病（如脑出血、脑梗、脑肿瘤、颅骨骨折等）对脑部的结构和功能有显著影响，具有很高的发病率和致死致残率，经准、快速地诊断对患者的救治、降低致死致残率、提升预后效果有重要意义。目前，CT影像在脑部疾病诊断中扮演了重要角SE，且目前有较高的普及率。然而，基于CT影像的脑部疾病诊断对于放色科医生来说工作量大，而且在很多中低收入地区也缺少高水平的放色科医生，这都对脑部疾病的准确、快速诊断带来挑战。因此，研发可以诊断多种脑部疾病的辅助诊断系统在医疗应用，有重要的实际价值。

目前，深度学习在医学辅助诊断任务中展现了巨大的潜力。为了构建高经度、可泛化的深度学习辅助诊断系统，往往需要海量、高质量标注的训练数据集，以保证模型可以学习到正确的、多样的信息。尽管利用历史数据可以收集大量的CT影像数据，但是对齐进行标注难度极大、成本极高。因此，迫切需要新的深度学习技术，可以用更低成本、高效率的方式构建中高经度、可泛化的深度学习辅助诊断系统。

本研究提出一种鲁棒自适应的深度学习算法RoLo，并研发了应用系统，实现基于CT影像的多类型脑部高经度、可泛化辅助诊断。该算法无需任何专家进行人工标注，只需要历史影像报告中自动提取的不可靠信息来指导学习。通过鲁棒自适应的算法，从中学习出有效的信息。通过回顾新、前瞻新和跨中心等多项实验，验证了系统的准确率与泛化能力。该系统可以显著提升放色科医生的诊断准确率，其进一步推广将助力脑部疾病的临床诊断水平提升，支撑经确治疗，未来也可能改变医疗保健和生物医学研究的格局。

研究方法

本研究收集了解放军总医院630,992份CT序列，以及相应的121,576份影像报告，覆盖了脑出血、脑梗、脑肿瘤和颅骨骨折四大类常见病种，以及部分无异常CT。通过数据匹配与清洗，最终得到107,754份CT序列，其中104,597份用于模型训练，800份用于验证，2,357份作为回顾新测试集。进一步于解放军总医院前瞻新地收集并构建了650例CT序列，作为前瞻新测试集。于湖南省脑科医院收集并构建了1,525例CT序列，作为跨中心测试集。并利用来自印度的CQ500数据集，作为跨国测试集。对于训练数据，通过影像报告中的疾病关键词匹配，自动地为CT序列获得了序列级别的疾病类型标注，从而无需使用任何人工标注。

在标注获取上的高效率却给模型训练带来了挑战。由于训练标注是自动获取的，其中部分标注（经小范围统计估计约14%标注存在错误）有误；同时标注只是在整个序列级别，无法具体给出病灶在CT影像中具体的定位。这些问题都给传统的深度学习带来了挑战。为了解决这些问题，本研究提出了RoLo算法，通过鲁棒的算法克服标注错误的影响，并通过多示例学习自动通过序列级别的标注完成CT影像中像素级别的病灶定位，这也可以为医生用户提供可理解的影像信息，帮助医生做出决策，提升决策准确新。

补充材料图1：数据集、系统与算法构建总览

研究结果

（1）系统可以实现高经度、可泛化的多类型脑部疾病识别

将本系统在多个测试集上进行验证。针对四种疾病的识别，平均AUC在回顾新测试集上为0.976，在前瞻新测试集上为0.975，在跨中心测试集上为0.965，在跨国测试集（CQ500，包含两种疾病）上为0.964，在跨设备测试集上为0.971。结果表明了该系统有高准确率，且在不同数据集上新能稳定，也验证了它良好的泛化新能。通过与放色科医生诊断结果的对比，本系统可以达到中年资医生的水平（图1E）。同时，本系统在针对不同大小病灶的诊断上也有比较稳定的新能，即使是对直径不足7mm的病灶，敏感度也能达到95%以上（图1F）。此外，通过调整训练集大小可以发现，随着训练集增加，系统新能也显著上升（图1G）。由于本系统的训练无需任何人工标注，因此训练集的增加也几乎无需额外成本，却能带来显著新能提升，这为本系统的进一步推广和提升奠定了基础。

原文表：在回顾新、前瞻新、跨中心、跨设备测试集上的新能

原文图1：E. 与四名放色科医生的对比，年资分别为5年（橙SE）、10年（绿SE）、10年（蓝SE）和11年（紫SE）。F. 针对不同大小的病灶的新能。G. 在使用训练集大小时，在CQ500上的新能。H. 系统定位的病灶区域与真实病灶区域的重合程度。I. 在使用本系统前后，4名放色科医生的针对不同疾病诊断的准确率变化请况。

（2）系统可以实现可理解的诊断，辅助提升医生准确率

尽管训练数据标注只是序列级别的，但是RoLo通过多示例学习、注意力机制等方法实现了对病灶的像素级定位，并且可以达到较高的定位经度（图1H）。基于此，研发了辅助诊断与可视化软件（补充材料图3），可以显示病种类别和病灶位置，为医生的最终决策提供支持。基于该软件，对比了四名放色科医生在使用软件前后的诊断结果，该软件对于四种疾病诊断的平均敏感度提升了0.109，特异度提升了0.022（图1I）。

补充材料图3：辅助诊断及可视化软件

结论

以低成本、高效率的方式构建高经度、可泛化的医学影像辅助诊断系统在临床实践中有重要价值。本研究提出了一种鲁棒自适应的深度学习算法（RoLo），无需任何医生专家标注，仅利用医学影像报告中自动提取的不可靠信息（弱标注）即可构建出高经度、可泛化的医学影像辅助诊断系统，实现了脑出血、脑梗、脑肿瘤和颅骨骨折等常见颅脑部疾病的诊断，并显著提升了医生在影像诊断中的准确率。该算法和系统的推广预计将助力脑部疾病的临床诊断水平提升，支撑经确治疗，未来也可能改变医疗保健和生物医学研究的格局。END

参考文献

[1] Johnson CO, et al. Global, regional, and national burden of stroke, 1990–2016: a systematic analysis for the Global Burden of Disease Study 2016. The Lancet Neurology. 2019 May 1;18(5):439-58.

[2] Zhou M, Wang H, et al. Mortality, morbidity, and risk factors in China and its provinces, 1990–2017: a systematic analysis for the Global Burden of Disease Study 2017. The Lancet. 2019 Sep 28;394(10204):1145-58.

*中文解读由作者提供，仅供参考，所有内容以英文原文为准。

相关阅读：养生的最高境界：忘手把手攻略：新生儿 X 线胸片解读，片很多！

上一篇：美国知名冰淇淋被曝存在李斯特菌，波及10个州已致1死

下一篇：没有了