理解LLM的范式——它就是个差分机? (opens in new tab)
作为一个外行,我一直对“AI”的魔力感到惊奇,我一度以为神经网络一层一层传播,可以看成某种有限步骤的图灵机。AI提醒我不要瞎类比,图灵机左移右移是离散,确定的逻辑,神经网络是fp32上连续的概率映射。 后来稍微深入了解了一下,认识到对于一个深度固定的 Transformer 模型(比如 96 层的 GPT-4),它的单次前向传播算是一个深度固定的有向无环图(DAG)。所谓的 predict next token,可以粗糙理解成 next_token = eval(model_weights, history+input) 这里最奇特的算是:自回归(Autoregression)。传统的冯·诺依曼架构中,指令(Code)和数据(Data)是分开的。但在 LLM 中,上下文是动态的指令+数据。输出什么样话,什么时机结束。LLM得自己想办法把画圆回来,并且知道什么时候该停止吐词。 这种 控制面 和 数据面 混合的做法让我感到非常不适,也是诸多prompt injection问题无解的根源 不过一旦get到这个范式,我想到一个有趣的类比,一般的 gpt 是 dcoder-only,VRA...
Read the original article