大语言模型的基石:Transformer 入坑笔记(三) - 注意力机制和 Transformer (opens in new tab)
背景 接上文 ,继续我们的 / 首先简单了解下传统的方案。 卷积神经网络(CNN) 卷积神经网络(CNN)似乎更适合静态数据(比如图片处理、提取特征等)。 所谓静态数据,是指每个数据组都单独和目标矩阵运算,通过卷积层、池化层、全连接层等输出。 每个数据组都单独运算所以可以大规模并发,但是数据组之间也缺乏关联。 我大概看了下原理,和我们要关注的
Read the original article