DEV Community

有人在拆 Transformer:Memory Caching 與 CTM 各拆走了一半 (opens in new tab)

這篇要談的兩篇研究——Google 的 Memory Caching(RNNs with Growing Memory)和 Sakana AI 的 Continuous Thought Machine(CTM)——常被包裝成「Transformer 殺手」。不是。它們是兩篇研究論文,不是產品,也不是要取代 Transformer。把它們放在一起讀,真正的故事只有一句: Transformer 的 self-attention 把記憶(在上下文裡 recall)和計算(思考發生在 forward pass)綁在同一個機制裡,代價是 O(L²)。這兩篇各拆走一半。 Memory Caching 拆記憶那一半,CTM 拆計算那一半。理解了這個軸,後面所有細節都會歸位。 一個先講清楚的規矩:本文只採用原論文能支持的宣稱。二手文章裡那些「在 SWE-bench / GPQA 上如何如何」的數字,凡是回不到原論文的,一律不寫。這兩篇論文本身都沒有報告 SWE-bench 結果——把二手整理的 agent 數字寫成論文結論,是這個題目最常見的造假。 一、成本牆:融在一起的代價 先講為什麼有人想...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help