百川发布新一代医疗增强大模型 M4：登顶 OpenAI 医疗评测，超越 GPT-5.5 (opens in new tab)

IT之家 6 月 22 日消息，百川智能与清华大学研究团队今日联合发布新一代医疗增强大模型 Baichuan-M4。该模型在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一，全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro，幻觉率低至 3.3%。在 OpenAI 提出的医疗评测 HealthBench 上，M4 综合得分 68.6，位列世界第一，领先第二名 GPT-5.5 超过 10 分；在最考验复杂临床决策的 Hard 子集上，M4 领先达 15.9 分。M4 会主动追问症状的性质与诱因，优先识别和排查危急重症，而不是被动等待用户提供完整信息，更不会为了尽快给出答案而跳过该问的关键病史。百川智能介绍称，该公司借鉴医学教育中长期使用的 OSCE（客观结构化临床考试）方法，联合 150 多位一线医生，构建了动态问诊评测体系 SCAN-bench。它不考查静态记忆，而是以真实临床经验为评分标准，通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在这套评测中，M4 初诊 79.0、复诊 74.7，...

Read the original article