近日,纽约大学与Meta AI实验室联手推出一项具身智能新成果。这个将机器人视觉与触觉信息相结合的新型训练方式名为TAVI,能够使机器人执行各类日常动作的成功率大幅提高,在某些特定任务上甚至能将效果提高一倍以上。
目前,研究团队的论文已经公开发表,相关代码也已经开源。
机器人展示开罐头等生活技能,动作人性化
在最新发布的展示视频中,机器人先后完成了剪断金属丝、打开铁盒、分离叠放的碗、放置物体等动作。
这些日常操作对人类来说轻而易举,但对机器人来说难度可不小。
观察机器人的动作可以发现,通过训练它已开始像人一样使用“撵”的方式让物体滑动,或利用外部工具辅助完成任务,整个动作流畅、协调,充满智能感。
以开罐头为例,机器人使用钳子从四面剪断盒子,然后从顶部掀开盖子,每一个步骤都运用恰到好处的力道,最后轻松将物品拿出。
Meta公司首席科学家Yann LeCun对此高度评价,称这是具身智能领域的重大进展。
的确,这种人机共情、灵巧自然的动作操作,已经远非过去僵硬的机械臂能比。
TAVI训练大幅提升机器人任务成功率
纽大团队介绍,他们的TAVI训练方式可以让机器人任务成功率大幅提高。以6项典型日常动作测试为例,比仅用视觉或触觉训练的模型高出一倍以上,具体来看:和只用视觉训练的方法相比,TAVI平均成功率提高了135%;和视觉+触觉奖励的方式相比,TAVI成功率提高近一倍;与以往类似的T-DEX训练相比,TAVI成功率是其四倍以上;
测试结果充分验证了混合视觉和触觉反馈进行训练的强大效果。
并且研究人员进一步测试了TAVI机器人面对未知物体的泛化能力。结果显示,在“拿碗”和“装盒”两个完全unseen的任务中,成功率仍可达到50%以上,完全见过的任务成功率则可达90%。
此外,测试还考察了机器人的环境适应能力,通过改变相机视角,机器人的成功率依然很高,展现出了较强的鲁棒性。
可以看出,TAVI训练方式不仅能在具体任务上产生惊人的效果提升,还使机器人获得了过硬的泛化力和适应力。
TAVI如何实现训练效果显著提升
那么,研究团队是如何实现TAVI训练方式的呢?
他们透露,这个方法可以分为三个关键步骤:
第一步,收集人类演示的视觉和触觉信息,这为构建视觉奖励函数奠定基础;第二步,学习视觉特征,评价机器人对任务的完成程度,这是TAVI的核心所在,系统通过对比学习获得视觉特征,建立完成度量标准;第三步,进行带视觉反馈的强化学习训练,机器人不断尝试,逐步提高完成度,最终形成适当的策略。
在具体实施中,研究团队还设计了残差策略,避免每轮训练都从零开始,这样可以提高学习效率。实验证明,这一策略对提升成功率确实发挥了重要作用。
总体而言,TAVI训练方式充分利用了视觉信息的评估指导作用,使机器人像婴儿一样通过观察他人逐步掌握技能,最终形成稳定高效的策略,完成各种日常任务。这为实现真正智能、用户友好的机器人迈出了关键一步。
具身智能迎来新的春天
长期以来,机器人在各类日常动作任务上的表现有限,动作比较笨拙生硬。TAVI训练方式的提出,可能推动机器人在日常环境中实现更多完整、复杂的行为,真正发挥具身智能应有的价值。类似融合视觉、语音、触觉等多源信息进行训练的方法,也将为机器人注入更丰富的感知、交互能力,加速其向通用智能发展。