有人在拆 Transformer：Memory Caching 與 CTM 各拆走了一半 (opens in new tab)

Covers 2 stories including Attention is all you need (2017)Discussed on DEV

這篇要談的兩篇研究——Google 的 Memory Caching（RNNs with Growing Memory）和 Sakana AI 的 Continuous Thought Machine（CTM）——常被包裝成「Transformer 殺手」。不是。它們是兩篇研究論文，不是產品，也不是要取代 Transformer。把它們放在一起讀，真正的故事只有一句： Transformer 的 self-attention 把記憶（在上下文裡 recall）和計算（思考發生在 forward pass）綁在同一個機制裡，代價是 O(L²)。這兩篇各拆走一半。 Memory Caching 拆記憶那一半，CTM 拆計算那一半。理解了這個軸，後面所有細節都會歸位。一個先講清楚的規矩：本文只採用原論文能支持的宣稱。二手文章裡那些「在 SWE-bench / GPQA 上如何如何」的數字，凡是回不到原論文的，一律不寫。這兩篇論文本身都沒有報告 SWE-bench 結果——把二手整理的 agent 數字寫成論文結論，是這個題目最常見的造假。一、成本牆：融在一起的代價先講為什麼有人想...

Read the original article