daily.zhihu.com

输出 Token 的费率普遍比输入 Token 贵,背后的经济与技术逻辑是什么? (opens in new tab)

司马懿,三国英雄士,四朝经济臣 查看知乎原文 大模型是 Transformer 的堆叠。Transformer 推理的两个阶段是结构性不对称的。输入侧叫预填充,输出侧叫解码,两个阶段在硬件上消耗的资源完全不同,单位 token 的边际成本相差接近一个数量级。 假设一次请求输入有 个 token,输出有 个 token,模型维度记为 。 输入侧的 个 token 是被一次性塞进模型做一次前向传播的。这一次前向传播是一个巨大的矩阵乘矩阵运算,所有 个 token 在硬件上是并行处理掉的。从浮点运算量看大概是 ,平摊到每个 token 上的成本接近常数,并且 GPU 利用率一般来说在填充阶段能跑到 80% 以上。 输出侧就不太一样。 个输出 token 必须一个一个生成,是自回归过程。生成第 个输出 token 时,模型要跑一次完整的前向传播,也就是整个模型权重从显存里读一遍,并且对当前已经累积的 个 token 做一次注意力计算,算出第 个 token 之后才能开始算第 个。这一步是矩阵乘向量,单步算力消耗很小,但是显存带宽被打满。瓶颈卡在显存往寄存器里搬数据这件事上。GPU 利用率...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help