为什么没人会喜欢你用 LLM 写出来的东西? (opens in new tab)
Matrix 首页推荐 文章代表作者个人观点,少数派仅对标题和排版略作修改。问题尽管刷榜刷得一套一套的,但如果你真的用 LLM 做一点「人事」的话,会发现最近这些新模型的实际能力并没有很相称。在我看来,这是当代「古德哈特定律」的魅力时刻:当一个评价指标本身成为优化的目标时,它便不再是一个良好的指标。这两年我们能看到的最丢人的例子便是来自 Facebook 的 LLAMA 4。这模型为了追求跑分搞了作弊的伎俩,被整个社区拉出来鞭,只能说是非常小丑了。大语言模型本身是为了解决人类问题而发展出来的东西,但是人类并不像水里游的鱼,把吃饭和传宗接代解决就算大功告成。人类的想要解决的问题是多元且复杂的。任何考验单一能力的 Benchmark 都不能够准确的评断我们日常需要执行的的所有认知任务。特别是写作这种很吃主观品味的东西。DeepSeek 刚出的时候,大家都非常喜欢那种狂飙形容词、 MSG 味很浓的文字,但后期这类东西开始在互联网上泛滥之后,就变得人见人打了。家里来了讨厌的客人.svg组合多个多个 Benchmark 来衡量模型品质同样不是一种万金油式的思路,因为「语言能力」是一种相当不...
Read the original article