BestBlogs.dev

规模化构建生成式图像与视频模型 - Sander Dieleman (Veo 与 Nano Banana) (opens in new tab)

📌 One-Sentence Summary 这是 Google DeepMind 的 Sander Dieleman 进行的一次全面的技术演讲,详细阐述了为图像和视频生成训练大规模扩散模型的端到端流程,涵盖了数据整理、潜在表示、核心扩散机制、网络架构、规模化、引导采样、蒸馏以及控制信号。 📝 Summary 在这次深入的演讲中,Google DeepMind 的研究科学家 Sander Dieleman 系统地讲解了构建像 Veo 和 Nano Banana 这样的尖端生成模型背后的实践与理论考量。演讲强调了数据整理的关键且常被低估的作用,以及使用学习到的潜在表示(通过自编码器)进行高效建模的必要性。Dieleman 对扩散模型进行了直观的解释,将其视为迭代精炼过程,并将其重新定义为“谱自回归”,解释了它们为何天然适合视觉数据。他涵盖了从 U-Net 到 Transformer 的架构转变、使用 Jax 等工具进行分布式训练的重要性,以及以多样性换取质量的强大技术——无分类器引导。讨论还延伸到用于加速采样的蒸馏技术(一致性模型),以及通过训练后处理引入高级控制信号(超越文本)所...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help