一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片 (opens in new tab)

DeepSeek创始人梁文锋。图片经过AI处理文丨晓静、李海伦编辑丨苏扬 4月24日消息， DeepSeek V4预览版官宣上线。根据 DeepSeek 的官方介绍，V4系列包含两个MoE模型： DeepSeek -V4-Pro总参数1\.6T、激活参数49B， DeepSeek -V4-Flash总参数 284B、激活参数13B，两者均原生支持100万token上下文。在1M上下文设置下，V4-Pro的单token推理FLOPs只有V3\.2的27%，KV Cache只有10%；V4-Flash更极端，分别压到10%和7%。 DeepSeek 自己给这代模型的定位是 “ preview version ” ，官方在报告中明确表示，V4的能力水平仍落后GPT-5\.4和Gemini-3\.1-Pro， “ 发展轨迹大约滞后前沿闭源模型3至6个月 ” 。换句话说，V4 预览版是把长上下文成本重构，为下一阶段test-time scaling和长程任务铺路的基础设施发布，没有强调能力上的跨越升级。 01 两款模型、三档推理：V4预览版到底是什么...

Read the original article