Matrix 首页推荐文章代表作者个人观点，少数派仅对标题和排版略作修改。问题尽管刷榜刷得一套一套的，但如果你真的用 LLM 做一点「人事」的话，会发现最近这些新模型的实际能力并没有很相称。在我看来，这是当代「古德哈特定律」的魅力时刻：当一个评价指标本身成为优化的目标时，它便不再是一个良好的指标。这两年我们能看到的最丢人的例子便是来自 Facebook 的 LLAMA 4。这模型为了追求跑分搞了作弊的伎俩，被整个社区拉出来鞭，只能说是非常小丑了。大语言模型本身是为了解决人类问题而发展出来的东西，但是人类并不像水里游的鱼，把吃饭和传宗接代解决就算大功告成。人类的想要解决的问题是多元且复杂的。任何考验单一能力的 Benchmark 都不能够准确的评断我们日常需要执行的的所有认知任务。特别是写作这种很吃主观品味的东西。DeepSeek 刚出的时候，大家都非常喜欢那种狂飙形容词、 MSG 味很浓的文字，但后期这类东西开始在互联网上泛滥之后，就变得人见人打了。家里来了讨厌的客人.svg组合多个多个 Benchmark 来衡量模型品质同样不是一种万金油式的思路，因为「语言能力」是一种相当不...

Read the original article