输出 Token 的费率普遍比输入 Token 贵，背后的经济与技术逻辑是什么？ (opens in new tab)

司马懿，三国英雄士，四朝经济臣查看知乎原文大模型是 Transformer 的堆叠。Transformer 推理的两个阶段是结构性不对称的。输入侧叫预填充，输出侧叫解码，两个阶段在硬件上消耗的资源完全不同，单位 token 的边际成本相差接近一个数量级。假设一次请求输入有个 token，输出有个 token，模型维度记为。输入侧的个 token 是被一次性塞进模型做一次前向传播的。这一次前向传播是一个巨大的矩阵乘矩阵运算，所有个 token 在硬件上是并行处理掉的。从浮点运算量看大概是，平摊到每个 token 上的成本接近常数，并且 GPU 利用率一般来说在填充阶段能跑到 80% 以上。输出侧就不太一样。个输出 token 必须一个一个生成，是自回归过程。生成第个输出 token 时，模型要跑一次完整的前向传播，也就是整个模型权重从显存里读一遍，并且对当前已经累积的个 token 做一次注意力计算，算出第个 token 之后才能开始算第个。这一步是矩阵乘向量，单步算力消耗很小，但是显存带宽被打满。瓶颈卡在显存往寄存器里搬数据这件事上。GPU 利用率...

Read the original article