DeepSeek-V4技术报告暗藏的10个神级彩蛋,“炼丹玄学”也被写进论文 (opens in new tab)
来源:盒饭财经DeepSeek在“省钱”和“省资源”上达到了变态的程度。作者 | 许有阳来源 | 盒饭财经(ID:daxiongfan) ]article_adlist-->头图及封面来源 | 网络及即梦制作DeepSeek-V4总算来了。4月24日,DeepSeek官方账号发布了一篇名为《DeepSeek-V4 预览版:迈入百万上下文普惠时代》的文章。文章中正式宣布,“全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。”同时,还介绍:DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本:发布后,测评、讨论已非常充分,不再赘述。盒饭财经关注到,DeepSeek同步发布了一篇关于DeepSeek-V4 技术报告。地址如下: Highly Efficient Million-Token Context Intelligence》的技术报告,共55页,从架构、通用基础设施、预训练、训练后等6个部分介绍了V4。而这份高度专业的技术报告中,隐藏了10个有意思的小彩蛋。 ]article_...
Read the original article