目的:评估基于大语言模型的实验性医学人工智能系统 Articulate Medical Intelligence Explorer(AMIE)在复杂心脏病学病例中的辅助诊疗价值,探讨其在亚专科医疗资源不足背景下对临床决策质量的影响。
方法:本研究开展随机对照试验,纳入疑似遗传性心肌病的复杂病例。构建来源于亚专科心脏病实践的真实世界病例数据集。9名普通心脏科医师在获取完整临床文本报告及原始诊断数据(包括心电图、超声心动图、心脏磁共振成像及心肺运动试验结果)的基础上,随机分配至有或无AMIE辅助的两组进行病例管理。采用包含10个维度的评估量表,由3名盲法亚专科专家对分诊、诊断与管理质量进行评价,并对错误类型、遗漏内容及推理质量进行量化分析。
结果:亚专科专家总体上更倾向于大语言模型辅助的诊疗结果,尤其在治疗方案制定和诊断检查维度上优势明显。总体偏好结果显示,AMIE辅助评估占46.7%,心脏科医师单独评估占32.7%,20.6%为平局(P = 0.02)。与AMIE辅助相比,单独诊疗组出现更多具有临床意义的错误(24.3% vs 13.1%,P = 0.033)及内容遗漏(37.4% vs 17.8%,P = 0.0021)。使用AMIE的医师报告,在57.0%的病例中获得帮助,并在50.5%的病例中节省时间。
结论:在复杂心脏病学病例管理中,大语言模型辅助系统可提高诊疗质量,减少临床错误与内容遗漏,并在一定程度上提升效率。该类人工智能系统在亚专科医疗资源不足的背景下具有潜在的临床应用价值。
原文出处:https://www.nature.com/articles/s41591-025-04190-9