DeepSeek V4来了:在喧哗众声中,按自己的节奏讲开源故事 (opens in new tab)
4 月 24 日,DeepSeek 在 Hugging Face 上传了 V4 系列的预览版本。这一代分两个型号,旗舰 V4-Pro 总参数 1.6 万亿、激活 490 亿,V4-Flash 总参数 2,840 亿、激活 130 亿,两款均支持 100 万 tokens 上下文,均为 MoE 架构、纯文本模型。与模型一同放出的还有 58 页的技术报告,标题为《DeepSeek V4:迈向高效的百万 token 上下文智能》。1.6T 的参数规模比年初泄露的 1T 传闻高出 60%,一周前 DeepGEMM 算子库的更新放出时,社区就已经反推出了这个数字。技术报告里还有一个此前没有的细节:V4-Flash 训练了 32T tokens,V4-Pro 训练了 33T tokens,都比 V3 的 14.8T 高了一倍多。把账算在注意力机制上V4 最核心的架构改动是一个分层的混合注意力机制。DeepSeek 这次设计了两个模块:Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA),在各层之间交替使用。CS...
Read the original article