sspai.com

为什么没人会喜欢你用 LLM 写出来的东西? (opens in new tab)

Matrix 首页推荐 文章代表作者个人观点,少数派仅对标题和排版略作修改。问题尽管刷榜刷得一套一套的,但如果你真的用 LLM 做一点「人事」的话,会发现最近这些新模型的实际能力并没有很相称。在我看来,这是当代「古德哈特定律」的魅力时刻:当一个评价指标本身成为优化的目标时,它便不再是一个良好的指标。这两年我们能看到的最丢人的例子便是来自 Facebook 的 LLAMA 4。这模型为了追求跑分搞了作弊的伎俩,被整个社区拉出来鞭,只能说是非常小丑了。大语言模型本身是为了解决人类问题而发展出来的东西,但是人类并不像水里游的鱼,把吃饭和传宗接代解决就算大功告成。人类的想要解决的问题是多元且复杂的。任何考验单一能力的 Benchmark 都不能够准确的评断我们日常需要执行的的所有认知任务。特别是写作这种很吃主观品味的东西。DeepSeek 刚出的时候,大家都非常喜欢那种狂飙形容词、 MSG 味很浓的文字,但后期这类东西开始在互联网上泛滥之后,就变得人见人打了。家里来了讨厌的客人.svg组合多个多个 Benchmark 来衡量模型品质同样不是一种万金油式的思路,因为「语言能力」是一种相当不...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help