mittrchina.com

DeepSeek V4来了:在喧哗众声中,按自己的节奏讲开源故事 (opens in new tab)

4 月 24 日,DeepSeek 在 Hugging Face 上传了 V4 系列的预览版本。这一代分两个型号,旗舰 V4-Pro 总参数 1.6 万亿、激活 490 亿,V4-Flash 总参数 2,840 亿、激活 130 亿,两款均支持 100 万 tokens 上下文,均为 MoE 架构、纯文本模型。与模型一同放出的还有 58 页的技术报告,标题为《DeepSeek V4:迈向高效的百万 token 上下文智能》。1.6T 的参数规模比年初泄露的 1T 传闻高出 60%,一周前 DeepGEMM 算子库的更新放出时,社区就已经反推出了这个数字。技术报告里还有一个此前没有的细节:V4-Flash 训练了 32T tokens,V4-Pro 训练了 33T tokens,都比 V3 的 14.8T 高了一倍多。把账算在注意力机制上V4 最核心的架构改动是一个分层的混合注意力机制。DeepSeek 这次设计了两个模块:Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA),在各层之间交替使用。CS...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help