一文读懂DeepSeek V4:1.6万亿参数、百万上下文、华为芯片 (opens in new tab)
DeepSeek创始人梁文锋。图片经过AI处理 文丨晓静 、李海伦 编辑丨苏扬 4月24日消息, DeepSeek V4预览版官宣上线 。 根据 DeepSeek 的官方介绍,V4系列包含两个MoE模型: DeepSeek -V4-Pro总参数1\.6T、激活参数49B, DeepSeek -V4-Flash总参数 284B、激活参数13B,两者均原生支持100万token上下文。 在1M上下文设置下,V4-Pro的单token推理FLOPs只有V3\.2的27%,KV Cache只有10%;V4-Flash更极端,分别压到10%和7%。 DeepSeek 自己给这代模型的定位是 “ preview version ” ,官方在报告中明确表示,V4的能力水平仍落后GPT-5\.4和Gemini-3\.1-Pro, “ 发展轨迹大约滞后前沿闭源模型3至6个月 ” 。 换句话 说 ,V4 预览版是 把长上下文成本重构 , 为下一阶段test-time scaling和长程任务铺路的基础设施发布 , 没有 强调 能力上 的 跨越 升级 。 01 两款模型、三档推理:V4预览版到底是什么...
Read the original article