
在物理AI领域,英伟达更新了用于理解和生成物理世界视频的Cosmos,机器人通用基础模型Isaac GR00T、自动驾驶视觉-语言-行动模型Alpamayo。
Cosmos是一个开源的物理AI世界基础模型,目前已经用海量视频、真实驾驶与机器人数据,以及3D模拟做过预训练。它能理解世界是怎么运行的,可以把语言、图像、3D和动作联系起来。黄仁勋表示,Cosmos能实现不少物理AI技能,比如生成内容、做推理、预测轨迹。它可以依据3D场景生成逼真的视频,根据驾驶数据生成符合物理规律的运动,还能从模拟器、多摄像头画面或文字描述生成全景视频。
Alpamayo是一个面向自动驾驶领域的开源工具链,也是首个开源的视觉-语言-行动(VLA)推理模型。Alpamayo最大的突破在于它是“推理型”自动驾驶模型。传统自动驾驶系统是“感知-规划-控制”的流水线架构,看到红灯就刹车,看到行人就减速,遵循预设规则。而Alpamayo引入了“推理”能力,理解复杂场景中的因果关系,预测其他车辆和行人的意图,甚至能处理需要多步思考的决策。