英伟达推出 Cosmos-Reason1 系列模型，让 AI 理解物理常识

2025-05-21 14:53IT之家 - 故渊

IT之家 5 月 21 日消息，科技媒体 marktechpost 昨日（5 月 20 日）发布博文，报道称英伟达针对物理推理任务，设计推出了 Cosmos-Reason1 系列模型，提升了 AI 在物理常识和具身推理方面的表现，为机器人、自动驾驶车辆等领域带来实际应用潜力。

Physical AI 挑战

人工智能（AI）在语言处理、数学和代码生成领域取得显著进步，但将其能力扩展到物理环境仍面临挑战。

不同于传统 AI，Physical AI（物理 AI）依赖视频等感官输入，结合现实物理法则生成反应，涉及导航、操作和交互等任务，需要常识推理和对空间、时间及物理规律的具身理解。

AI 模型目前对物理世界的连接薄弱，无法直观理解重力或空间关系，导致在具身任务中表现不佳，而直接在物理世界中训练成本高且风险大，严重阻碍了开发进程。

Cosmos-Reason1：创新突破物理推理

英伟达最新推出 Cosmos-Reason1 系列模型，迎接上述挑战，为物理推理提供了新方案。

IT之家援引博文介绍，该模型分为 Cosmos-Reason1-7B 和 Cosmos-Reason1-56B 两个版本，通过 Physical AI Supervised Fine-Tuning（SFT）和 Physical AI Reinforcement Learning（RL）两个阶段训练。

研究团队引入双本体系统：一个分层本体将物理常识分为空间、时间和基础物理三大类，细化为 16 个子类；另一个二维本体则映射人类、机械臂、人形机器人等五种具身代理的推理能力。

模型架构采用仅解码器的大型语言模型（LLM），结合视觉编码器处理视频数据，实现文本和视觉数据的同步推理。训练数据包含约 400 万条标注视频-文本对，涵盖动作描述和复杂推理任务。

团队为此构建了针对物理常识的三个基准（604 个问题，426 个视频）和针对具身推理的六个基准（610 个问题，600 个视频）。

Cosmos-Reason1 模型在物理常识和具身推理基准测试中表现出色，尤其在 RL 训练后，模型在预测下一步行动、验证任务完成和评估物理可行性等方面取得显著进步。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。