使用 NVIDIA Cosmos 3 开发物理 AI 推理、世界与动作模型 (opens in new tab)
📌 One-Sentence Summary NVIDIA Cosmos 3 是一个统一的物理 AI 开源基础模型,通过单一的混合 Transformer 架构,将推理、世界生成和动作生成整合在一起。 📝 Summary 这篇来自 NVIDIA 技术博客的文章介绍了 NVIDIA Cosmos 3,这是一个面向物理 AI 的前沿基础模型。它采用混合 Transformer 架构,通过两个塔(推理器 VLM 和基于扩散的生成器)将物理推理、世界生成和动作生成统一到单个模型中。文章详细介绍了该模型的能力,包括支持多种输入和输出模态(文本、图像、视频、动作)。文章涵盖了两个可用的模型规模:适用于工作站级推理的 Cosmos 3 Nano(8B)和适用于数据中心部署的 Cosmos 3 Super(32B)。此次发布包括开源模型检查点、六个用于后训练的综合数据生成数据集,以及一个新的人类评估基准。文章还提供了基准测试结果,显示 Cosmos 3 在多个排行榜上达到最先进水平,并介绍了监督微调和动作后训练的训练方案,以及通过 NVIDIA NIM 微服务进行部署的选项,包括量化和高效视频采...
Read the original article