近年来,机器人已经越来越普遍的成为人们生活家庭中的小帮手,而来自卡耐基梅隆大学 (CMU) 的四个科学家,发现家庭机器人应用在现实生活中和实验差距很大,在一篇论文中,他们强调:机器人一般都生活在实验室里,在真实的场景中生活场景几乎为0。
为什么机器人动作数据不会像我们在计算机视觉和自然语言处理等其他重要领域中看到的那样获得类似的收益?
许多方法声称实验室中收集的数据是真实数据。但是面对现实多样化的场景,很多机器人显得力不从心。因此,机器人在试验过程中的数据采集信息就需要从实验室设置转移到现实世界的人们家中。
对此,科学家们决定把这些机器人带去开房。通过在多个看不见的家中对机器人进行物理执行指令,将家庭数据集训练的模型显示与实验室收集的数据训练的基线模型进行对比,找到解决机器人在实验室数据之外,遇到状况怎么处理和解决目前一些廉价机器人对于日常生活中做事和面对指令反应不准确的问题。
经济适用机器人
由于收集模拟数据比实时机器人实时成本低得多,所以目前的机器人大多的数据驱动方法主要集中在使用模拟器上,这种模拟器不是使用手工设计的模型,而是集中于大规模数据集的收集,但模拟器与现实世界之间存在广泛的“现实差距”。因此,科学家决定推动在多个机器人实验室中收集真实世界的物理交互数据,主要目的是要将硬件成本下降。
为了这个目的,科学家们把机器人进行了改造,机械手臂上先建立一个低于3K美元组装的低成本移动机械手把,再逐步加上双轴手腕,两指电动夹具,还有移动底座。传感器方面,配置了英特尔R200 RGB摄像头,以及帮摄像头转脖子的云台。至于机器人的大脑搭载了i5-8250U的CPU和8G的RAM,一次充电可运行约3小时。底座中的电池用于为底座和臂提供动力。只需一次充电,系统可以运行1.5小时。这样每台“只要”三千美元,比别的 (两万美元的) 机器人经济多了。
由于廉价的电动机,突出了降低成本的一个不可避免的后果-那就是无法准确的控制。现有的机器人采集数据集多种多样存在很多误差,这种误差称之为机器人工作的噪声,并把噪声模拟为潜在变量并使用两个网络:预测可能的噪声预测执行的动作。
机器人平面抓取原则
平面抓取训练原则遵循Imagenet预训练的卷积神经网络作为初始化,分为3个结构:
1、抓取预测网络 (GPN) ,基于对象的图像块推断抓握角度,再决定用什么姿势抓取。而采用经济的机器人,收集的数据会有很多噪音
2、噪音建模网络 (NMN) ,估计给定图像的潜在噪声场景和机器人信息这两组数把噪音分离出去。
3、边缘化层 (Marginalization Layer) ,计算最终的抓握角度,把两股数据流结合起来,以便给出更好的决策。
机器人潜在噪声模型
科学家们为确保数据测试得多样化,举出六个家庭来进行平面抓取。每个家庭都有几个环境,使用多个机器人并行收集数据。由于是在具有非结构化视觉输入的家庭中收集数据,所以使用了物体检测器。这导致在杂乱和不同背景中对象的边界框预测,于是仅对2D位置并丢弃对象类信息进行记录。一旦在图像空间中获取到物体的位置,就首先对其进行抓取采样,然后从嘈杂的PointCloud计算3D抓取位置。
由于欠约束机器人只有5个DOF,所以运动规划管道经过精心设计。在收集训练数据时,将各种各样的物体分散开,让移动基地随机移动和抓取物体。基座被限制在2米宽的区域,以防止机器人与其操作区域之外的障碍物碰撞,然后对采集的数据集进行定量评估。
对于定量评估,可以使用三种不同的测试设置:
1、二进制分类(保留数据):通过对对象执行随机抓取来收集保持测试集。
在给定位置和抓握角度的情况下,测量二元分类的性能。模型必须预测掌握是否成功。这种方法允许评估大量模型而无需在真实机器人上运行它们。
2、真正的低成本手臂(Real-LCA):通过评估学习模型在低成本手臂上的物理抓取性能。
3、Real Sawyer(Real-Sawyer):测量学习模型在工业机器人手臂(Sawyer)上的物理抓取性能。由于Sawyer是更准确和更好的校准,因此评估Robust-Grasp模型过程中不会解开数据中的噪声。
机器人从模型训练到数据集整合评估都对无法完全适应外界,因此,采集现实世界的数据,来实时的训练机器人实际技能,这是一个泛化和艰难的过程,很期待和机器人共同生活的世界,你们期待吗?