为什么视频智能体模型是下一个前沿——Ethan He，xAI Grok Imagine 负责人 (opens in new tab)

📌 One-Sentence Summary xAI Grok Imagine 前负责人 Ethan He 认为，视频生成的下一个前沿不是更好的模型，而是视频智能体，并且视频模型主要从 LLM 而非视频数据中获取智能。 📝 Summary 这期播客深度访谈了 Ethan He，他是 xAI Grok Imagine 的前负责人，也是 NVIDIA Cosmos 世界模型的关键贡献者。他分享了在短短三个月内从零构建前沿视频生成模型的经验，强调迭代速度和修复数据管道中的小错误比新颖算法更重要。核心论点是：视频模型的智能主要来自语言模型，而非视频数据；下一步演进将走向视频智能体，它能规划、生成、编辑、评判和迭代完成创意任务，这与 AI 编程的演进路径如出一辙。讨论涵盖了视频模型的技术栈（VAE、扩散 Transformer、合成字幕）、时间压缩与实时交互性之间的权衡、训练中的隐性成本（存储、出站流量、GPU 时长），以及生成式 UI 的未来——视频生成模型可能取代传统 HTML/CSS。Ethan 还分享了 xAI 的文化、他离职的原因，以及他将重心转向 LLM 和自管理上下文的转变。...

Read the original article