近日,联想创投所投企业星动纪元联合清华大学交叉信息学院ISRLab宣布,开源全球首个AIGC生成式机器人大模型VPP(Video Prediction Policy)。这一入选国际机器学习顶级会议ICML 2025 Spotlight(前2.6%)的突破性成果,首次赋予机器人“预测未来”的视觉推演能力,标志着具身智能向类人认知能力迈出了关键一步。
预见未来的眼睛:
VPP的革命性内核
目前,大多数机器人大模型普遍为基于视觉语言模型(VLM)的VLA模型(Vision Language Action),形成“看-说-做”的闭环。这种模式依赖即时反馈,机器人在行动时更多是对当下情况做出反应,缺乏提前规划的能力。同时,它们对动态信息的反应速度较慢,并且由于模型的黑箱性质,难以进行有效的调试和优化。
而VPP模型的出现,为这一困境带来了解决方案。它基于类似Sora(生成视频)的技术,在训练过程中运用了海量互联网视频数据。这使得VPP模型能够根据当前场景生成“教学”视频,类似于为机器人量身定制操作指南,从而指导机器人如何执行物理动作。
简单来说,VPP模型赋予了机器人“想象”和“规划”的能力,让它们在行动之前能够先“思考”,通过生成的视频来预测不同行动可能产生的结果,从而选择最优的行动方案。
星动纪元VPP:
具身智能的三大跃升
依托星动纪元自主研发的单臂+仿人五指灵巧手XHAND平台,VPP模型展现了其作为下一代机器人大模型的卓越性能,包括学习能力强、会举一反三、行为可解释。
● 学习能力强:VPP模型不仅能对各种形态机器人的视频数据进行学习,还能直接学习人类操作数据。这一特性显著降低了数据获取成本,无论是机械臂的操作,还是人形机器人的复杂动作,VPP模型都能通过学习相关视频数据,快速掌握其中的技巧和模式,并将其应用到实际任务中。这种强大的学习能力,使得VPP模型能够快速适应不同类型的机器人和多样化的任务场景,展现出卓越的泛化能力。
● 会举一反三:基于星动纪元单臂+仿人五指灵巧手XHAND平台,VPP模型能使用1个网络完成100+种复杂灵巧操作任务,涵盖了放置、杯子扶正、重新定位、堆叠、传递、按压、拔插、开启以及复杂工具使用等。这意味着,VPP模型不是简单地对特定任务进行编程式执行,而是真正理解了操作的本质和原理。这种举一反三的能力,是迈向通用人工智能的重要一步。
● 行为可解释:与许多黑箱模型不同,VPP模型的预测视觉表示在一定程度上是可解释的。VPP模型通过生成预测视频,让开发者能够直观地看到机器人在执行任务前“设想”的行动步骤。在不通过real-world测试情况下,开发者可以通过预测的视频来提前发现失败的场景和任务,进行针对性的调试和优化。这大大提高了机器人开发和优化的效率,降低了开发成本,也让机器人的行为更加可靠和可控。
落地生根:
预见未来的价值场景
VPP模型的出现,为众多领域带来了新的机遇和变革。
在3C精密制造与物流仓储领域,传统机器人依赖精确编程,难以适应产品迭代。VPP模型通过学习人类装配视频,可快速迁移技能至不同型号机械臂,实现高精度零部件柔性组装与复杂仓储环境下的高效、无碰撞路径规划。
在家庭服务领域,VPP模型可赋能服务机器人在开门、避障取物、清洁打扫乃至更复杂的烹饪、洗碗等流程化操作中“先看一步再出手”,显著提升任务成功率和安全性。
同时,VPP模型作为首个AIGC生成式机器人大模型,可与PI等VLA大模型相互促进和借鉴。未来,它将与各类技术深度融合,让AI不仅听得懂、看得清,还能想得远、动得准。随着技术的不断进步和完善,VPP模型有望开启一个全新的智能机器人时代,为我们的生活和工作带来更多的便利和惊喜。
作为首个开源的AIGC生成式机器人大模型,VPP模型的开放具有里程碑意义。未来,具身智能的发展必然是多种技术路线的交汇共生,VPP模型所代表的“预测式智能”将与“交互式智能”深度融合。人类与机器协同共生的智能新纪元,正从实验室的代码中加速奔向我们身处的现实世界。
胜亿配资-炒股配资资讯-正规股票配资门户网站-360配资提示:文章来自网络,不代表本站观点。