DeepSeek V4来了：在喧哗众声中，按自己的节奏讲开源故事 (opens in new tab)

4 月 24 日，DeepSeek 在 Hugging Face 上传了 V4 系列的预览版本。这一代分两个型号，旗舰 V4-Pro 总参数 1.6 万亿、激活 490 亿，V4-Flash 总参数 2,840 亿、激活 130 亿，两款均支持 100 万 tokens 上下文，均为 MoE 架构、纯文本模型。与模型一同放出的还有 58 页的技术报告，标题为《DeepSeek V4：迈向高效的百万 token 上下文智能》。1.6T 的参数规模比年初泄露的 1T 传闻高出 60%，一周前 DeepGEMM 算子库的更新放出时，社区就已经反推出了这个数字。技术报告里还有一个此前没有的细节：V4-Flash 训练了 32T tokens，V4-Pro 训练了 33T tokens，都比 V3 的 14.8T 高了一倍多。把账算在注意力机制上V4 最核心的架构改动是一个分层的混合注意力机制。DeepSeek 这次设计了两个模块：Compressed Sparse Attention（CSA）和 Heavily Compressed Attention（HCA），在各层之间交替使用。CS...

Read the original article