
MAI-DxO:AI诊断“超人”诞生,准确率80%且大幅省钱
周展平
1
7-3这篇论文介绍了“序列诊断基准 (SDBench)”,这是一个通过将304个《新英格兰医学杂志》临床病理会议病例转化为逐步诊断场景,以评估语言模型在真实世界医疗实践中诊断能力的框架。为应对这一挑战,研究团队开发了“MAI诊断编排器 (MAI-DxO)”,一个模拟多位医生协作诊断的系统。MAI-DxO显著提高了诊断准确性并降低了成本,其表现远超普通医生和未经优化的现有语言模型,展示了AI在临床诊断中的巨大潜力。
序列诊断基准 (SDBench)
- 目的与设计: 将304个《新英格兰医学杂志》(NEJM-CPC) 病例转换为交互式、逐步进行的诊断场景,以评估AI和人类在真实世界医疗情境下的诊断能力。
- 核心机制: 引入“守门人 (Gatekeeper)”模型,仅在明确查询时才揭示患者信息;“裁判 (Judge)”模型评估诊断准确性;“成本估算器 (Cost Estimator)”计算累计测试费用。
- 评估指标: 不仅评估诊断准确性,还衡量医生就诊和检查的成本,旨在实现高质量、可持续成本的医疗服务。
- 人类表现: 经验丰富的医生在SDBench上的平均诊断准确率为20%,平均成本为2,963美元,突显了该基准的挑战性。
MAI诊断编排器 (MAI-DxO) 的架构
- 协作模拟: MAI-DxO是一个模型无关的编排器,通过模拟由“假设博士”、“测试选择博士”、“挑战博士”、“管理博士”和“清单博士”组成的虚拟医生小组进行协作诊断。
- 角色分工: 每个虚拟角色都贡献专业知识,例如“假设博士”维护概率排序的鉴别诊断,“测试选择博士”选择最具区分度的测试,“管理博士”确保成本效益。
- 决策流程: 小组通过“辩论链”达成共识,决定提问、下达测试指令或提交最终诊断。
MAI-DxO 的卓越性能
- 诊断准确性提升: 当与OpenAI的o3模型结合时,MAI-DxO实现了80%的诊断准确率,是普通医生平均水平(20%)的四倍。
- 成本效益显著: 与医生相比,MAI-DxO将诊断成本降低了20%;与未经优化的o3模型相比,成本降低了70%(例如,从7,850美元降至2,397美元)。
- 模型泛化能力: MAI-DxO的性能提升可推广到OpenAI、Gemini、Claude、Grok、DeepSeek和Llama系列等多种模型,平均提高了11个百分点的准确率。
- 超越人类与基线: 在所有成本或准确度水平上,MAI-DxO都超越了现有模型和执业医师,建立了新的帕累托前沿。
AI诊断的现实意义与未来展望
- 超越静态评估: SDBench使AI诊断评估更贴近真实临床实践中动态、不确定和成本受限的特性,要求AI主动进行信息收集和决策。
- “超人”表现: AI系统能够结合全科医生的广度和专科医生的深度,在复杂的诊断问题上显著超越个体医生。
- 临床应用前景: 预示着AI在扩展专家医疗知识、提高诊断精度和成本效益方面的巨大潜力,特别是在资源有限的地区。
- 未来工作方向: 需在日常临床环境中验证MAI-DxO,开发反映真实疾病流行模式的诊断语料库,并探索其在医学教育和消费者健康工具中的应用。