BestBlogs.dev

使用 NVIDIA Cosmos 3 开发物理 AI 推理、世界与动作模型 (opens in new tab)

📌 One-Sentence Summary NVIDIA Cosmos 3 是一个统一的物理 AI 开源基础模型,通过单一的混合 Transformer 架构,将推理、世界生成和动作生成整合在一起。 📝 Summary 这篇来自 NVIDIA 技术博客的文章介绍了 NVIDIA Cosmos 3,这是一个面向物理 AI 的前沿基础模型。它采用混合 Transformer 架构,通过两个塔(推理器 VLM 和基于扩散的生成器)将物理推理、世界生成和动作生成统一到单个模型中。文章详细介绍了该模型的能力,包括支持多种输入和输出模态(文本、图像、视频、动作)。文章涵盖了两个可用的模型规模:适用于工作站级推理的 Cosmos 3 Nano(8B)和适用于数据中心部署的 Cosmos 3 Super(32B)。此次发布包括开源模型检查点、六个用于后训练的综合数据生成数据集,以及一个新的人类评估基准。文章还提供了基准测试结果,显示 Cosmos 3 在多个排行榜上达到最先进水平,并介绍了监督微调和动作后训练的训练方案,以及通过 NVIDIA NIM 微服务进行部署的选项,包括量化和高效视频采...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help