AI诊断真实病例准确率超医生，哈佛团队称医学评估标准或应重新改写 (opens in new tab)

随着能力的提升，AI 在某个医疗基准数据集上获得 SOTA 已不足为奇。但现在，研究人员证明 AI 在真实病例场景下表现出与医生相当或更高的准确率。这意味着，AI 不是在训练过的场景下背诵标准答案，而是在临床实战中给出诊断推理。近日，哈佛医学院、斯坦福大学等研究团队在 Science 发布了一项迄今最大规模 AI 医疗对比研究[1]，并首次用真实的患者病历来检验 AI 的推理能力，真实场景意味着可能存在病历混乱、信息不全的情况。研究人员让 OpenAI 的 o1 模型与几百名医生在六种不同场景中进行诊断比对。结果表明，AI 在多项临床推理任务中的准确率与医生持平甚至更高，包括急诊决策、诊断以及为患者制定下一步的治疗方案。该研究结果预示着一个重要的转折点：随着模型能力越来越强，传统的医学评估基准和人工设计的测试案例可能正面临失效。“过去可用多项选择题来评估模型的能力，现在它们的得分已长期接近 100%，对于进一步追踪进展并无太大意义。”该论文共同第一作者、哈佛医学院研究员 Peter Brodeur 说。研究人员强调，AI 或许能给出更准确的的文本建议、避免一些不必要的检查，以及...

Read the original article