百川发布新一代医疗增强大模型 M4:登顶 OpenAI 医疗评测,超越 GPT-5.5 (opens in new tab)
IT之家 6 月 22 日消息,百川智能与清华大学研究团队今日联合发布新一代医疗增强大模型 Baichuan-M4。该模型在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻觉率低至 3.3%。在 OpenAI 提出的医疗评测 HealthBench 上,M4 综合得分 68.6,位列世界第一,领先第二名 GPT-5.5 超过 10 分;在最考验复杂临床决策的 Hard 子集上,M4 领先达 15.9 分。M4 会主动追问症状的性质与诱因,优先识别和排查危急重症,而不是被动等待用户提供完整信息,更不会为了尽快给出答案而跳过该问的关键病史。百川智能介绍称,该公司借鉴医学教育中长期使用的 OSCE(客观结构化临床考试)方法,联合 150 多位一线医生,构建了动态问诊评测体系 SCAN-bench。它不考查静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在这套评测中,M4 初诊 79.0、复诊 74.7,...
Read the original article