AI诊断真实病例准确率超医生,哈佛团队称医学评估标准或应重新改写 (opens in new tab)
随着能力的提升,AI 在某个医疗基准数据集上获得 SOTA 已不足为奇。但现在,研究人员证明 AI 在真实病例场景下表现出与医生相当或更高的准确率。这意味着,AI 不是在训练过的场景下背诵标准答案,而是在临床实战中给出诊断推理。近日,哈佛医学院、斯坦福大学等研究团队在 Science 发布了一项迄今最大规模 AI 医疗对比研究[1],并首次用真实的患者病历来检验 AI 的推理能力,真实场景意味着可能存在病历混乱、信息不全的情况。研究人员让 OpenAI 的 o1 模型与几百名医生在六种不同场景中进行诊断 比对。结果表明,AI 在多项临床推理任务中的准确率与医生持平甚至更高,包括急诊决策、诊断以及为患者制定下一步的治疗方案。该研究结果预示着一个重要的转折点:随着模型能力越来越强,传统的医学评估基准和人工设计的测试案例可能正面临失效。“过去可用多项选择题来评估模型的能力,现在它们的得分已长期接近 100%,对于进一步追踪进展并无太大意义。”该论文共同第一作者、哈佛医学院研究员 Peter Brodeur 说。研究人员强调,AI 或许能给出更准确的的文本建议、避免一些不必要的检查,以及...
Read the original article