有人在拆 Transformer:Memory Caching 與 CTM 各拆走了一半 (opens in new tab)
這篇要談的兩篇研究——Google 的 Memory Caching(RNNs with Growing Memory)和 Sakana AI 的 Continuous Thought Machine(CTM)——常被包裝成「Transformer 殺手」。不是。它們是兩篇研究論文,不是產品,也不是要取代 Transformer。把它們放在一起讀,真正的故事只有一句: Transformer 的 self-attention 把記憶(在上下文裡 recall)和計算(思考發生在 forward pass)綁在同一個機制裡,代價是 O(L²)。這兩篇各拆走一半。 Memory Caching 拆記憶那一半,CTM 拆計算那一半。理解了這個軸,後面所有細節都會歸位。 一個先講清楚的規矩:本文只採用原論文能支持的宣稱。二手文章裡那些「在 SWE-bench / GPQA 上如何如何」的數字,凡是回不到原論文的,一律不寫。這兩篇論文本身都沒有報告 SWE-bench 結果——把二手整理的 agent 數字寫成論文結論,是這個題目最常見的造假。 一、成本牆:融在一起的代價 先講為什麼有人想...
Read the original article