「同样表达一个意思，英语要60秒，汉语5秒就够了」是否有过誉？ (opens in new tab)

“同样表达一个意思，英语要60秒，汉语5秒就够了”是否有过誉？ chenqin，数据帝查看知乎原文在 token 计费的时代，信息密度可以用 token 来计算。那么怎样找到“一定具有相同信息”的文字载体呢？文学作品新闻材料的相互翻译肯定不行，因为这些内容必定有一个“初始语言”，从初始语言向外翻译，肯定会有走样。联合国的文件则是一个比较好的选择。联合国的官方语言一共有六种，包括阿拉伯语、汉语、英语、法语、俄语、西班牙语。每一份文件，都需要联合国各国外交使节商讨裁定，确定每一份文件使用他国语言表达了和本国语言完全一样的意思。因此，每一份文件的各国语言版，基本上可以认为是“承载相同的信息”。我下载了 100 份文件，使用六种大模型，算出了每一种语言相对英语的 token 数量。可以看到，中文在 claude-opus-4.6 上 token 使用量超过英语，和 gpt-5.5 上两者差不多，但在其他四个模型（包括 gemini-3.1-pro）上，token 使用量都明显低于英语。相比之下，法语和西班牙语的 token 耗费量较多，然后是俄语，阿拉伯语的耗费量则...

Read the original article