daily.zhihu.com

「同样表达一个意思,英语要60秒,汉语5秒就够了」是否有过誉? (opens in new tab)

“同样表达一个意思,英语要60秒,汉语5秒就够了”是否有过誉? chenqin,数据帝 查看知乎原文 在 token 计费的时代,信息密度可以用 token 来计算。 那么怎样找到“一定具有相同信息”的文字载体呢? 文学作品新闻材料的相互翻译肯定不行,因为这些内容必定有一个“初始语言”,从初始语言向外翻译,肯定会有走样。 联合国的文件则是一个比较好的选择。 联合国的官方语言一共有六种,包括阿拉伯语、汉语、英语、法语、俄语、西班牙语。 每一份文件,都需要联合国各国外交使节商讨裁定,确定每一份文件使用他国语言表达了和本国语言完全一样的意思。 因此,每一份文件的各国语言版,基本上可以认为是“承载相同的信息”。 我下载了 100 份文件,使用六种大模型,算出了每一种语言相对英语的 token 数量。 可以看到,中文在 claude-opus-4.6 上 token 使用量超过英语,和 gpt-5.5 上两者差不多,但在其他四个模型(包括 gemini-3.1-pro)上,token 使用量都明显低于英语。 相比之下,法语和西班牙语的 token 耗费量较多,然后是俄语,阿拉伯语的耗费量则...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help