规模化构建生成式图像与视频模型 - Sander Dieleman (Veo 与 Nano Banana) (opens in new tab)

📌 One-Sentence Summary 这是 Google DeepMind 的 Sander Dieleman 进行的一次全面的技术演讲，详细阐述了为图像和视频生成训练大规模扩散模型的端到端流程，涵盖了数据整理、潜在表示、核心扩散机制、网络架构、规模化、引导采样、蒸馏以及控制信号。 📝 Summary 在这次深入的演讲中，Google DeepMind 的研究科学家 Sander Dieleman 系统地讲解了构建像 Veo 和 Nano Banana 这样的尖端生成模型背后的实践与理论考量。演讲强调了数据整理的关键且常被低估的作用，以及使用学习到的潜在表示（通过自编码器）进行高效建模的必要性。Dieleman 对扩散模型进行了直观的解释，将其视为迭代精炼过程，并将其重新定义为“谱自回归”，解释了它们为何天然适合视觉数据。他涵盖了从 U-Net 到 Transformer 的架构转变、使用 Jax 等工具进行分布式训练的重要性，以及以多样性换取质量的强大技术——无分类器引导。讨论还延伸到用于加速采样的蒸馏技术（一致性模型），以及通过训练后处理引入高级控制信号（超越文本）所...

Read the original article