中国芯片,DeepSeek与Kimi的隐秘交点 (opens in new tab)
杨植麟的新作业:Kimi K2\.6。图片经过AI处理 文丨苏扬 编辑丨徐青阳 “K2\.6是我们迄今为止最强代码模型。”Kimi在公众号中写道。 4月20日晚间,Kimi正式推出编程、Agent能力都表现更强的开源模型K2\.6,距离上一个版本K2\.5发布刚好一个季度左右。 这里还有一个小插曲,传闻本周DeepSeek V4也将发布。如果一切按外界预期的推进,这将是Kimi和DeepSeek的第N次撞车。但在更底层的基础设施层面,还有一条暗线:Kimi和DeepSeek这两个大模型创业公司,终将踏入同一条河流——与国产芯片创业公司共进退。 时间倒回2026年3月份,杨植麟在英伟达GTC演讲台,谈及Kimi的技术路线图。他说:“目前普遍使用的很多技术标准,本质上是八九年前的产物,逐渐成为Scaling的瓶颈。” 为了解决类似问题,Kimi给开源社区贡献了首次大规模应用的二阶优化器MuonClip、让大模型处理长上下文更高效的Kimi Linear架构,以及优化深度神经网络层连接的Attention Residuals。 Kimi的Scaling策略 杨植麟认为,将Kimi的进化...
Read the original article