语言本身就是对世界的有损压缩；而 LLM 将海量语言进一步压缩为有限参数中的概率分布。这意味着真实世界中可被语言保留的部分，在模型训练中可能再次被丢弃或模... (opens in new tab)

语言本身就是对世界的有损压缩；而 LLM 将海量语言进一步压缩为有限参数中的概率分布。这意味着真实世界中可被语言保留的部分，在模型训练中可能再次被丢弃或模糊化（尤其是低频、微妙、反常识的现象）。所以模型的能力上限，天然低于语言本身所能表达的信息上限，更远低于全部现实。