「同样表达一个意思,英语要60秒,汉语5秒就够了」是否有过誉? (opens in new tab)
“同样表达一个意思,英语要60秒,汉语5秒就够了”是否有过誉? chenqin,数据帝 查看知乎原文 在 token 计费的时代,信息密度可以用 token 来计算。 那么怎样找到“一定具有相同信息”的文字载体呢? 文学作品新闻材料的相互翻译肯定不行,因为这些内容必定有一个“初始语言”,从初始语言向外翻译,肯定会有走样。 联合国的文件则是一个比较好的选择。 联合国的官方语言一共有六种,包括阿拉伯语、汉语、英语、法语、俄语、西班牙语。 每一份文件,都需要联合国各国外交使节商讨裁定,确定每一份文件使用他国语言表达了和本国语言完全一样的意思。 因此,每一份文件的各国语言版,基本上可以认为是“承载相同的信息”。 我下载了 100 份文件,使用六种大模型,算出了每一种语言相对英语的 token 数量。 可以看到,中文在 claude-opus-4.6 上 token 使用量超过英语,和 gpt-5.5 上两者差不多,但在其他四个模型(包括 gemini-3.1-pro)上,token 使用量都明显低于英语。 相比之下,法语和西班牙语的 token 耗费量较多,然后是俄语,阿拉伯语的耗费量则...
Read the original article