伯克利和Deepmind前赴后继,只为教出会做家务的机器人?

亿欧网 中字

新年伊始,伯克利就传出新进展,他们教机器人做家务的能力更上一层楼了。在最新的论文中,伯克利介绍了他们是如何让机器学会读懂人类的潜台词或未尽之意,而不是傻乎乎地按照字面意思或者奖励系统来机械地运动。

举个例子,当餐桌机器人上菜时,它会知道躲避酒柜,或者在停电等紧急情况下停止端盘子,而不是为了尽可能多地得到奖赏(端一个盘子系统会提供一个奖励),而马不停蹄地送盘子。甚至还可能直接把盘子打碎,这样就可以获得更多的“盘子”(奖励)了……

反正我看到这个新闻时,第一反应是机器人可真笨啊,这么简单的任务我两岁的小侄子都会做。第二反应是伯克利教机器人做家务的执念也未免太深了吧!

之前还开发过引擎教机器人铺床单、叠衣服、收拾桌面,总之,非要让机器人掺和家务这件事不可。想要挑战家务技能的除了伯克利,还有Deepmind。去年2月,Deepmind就提出了一种新的学习范式“计划辅助控制SAC-X”,来帮助机器人学会整理桌子和堆叠衣物。

前不久佐治亚理工学院的研究人员,也发表了新的强化学习算法,可以教会机器人穿衣服。为什么这么多AI巨头不约而同地走上了家务培训的道路?未来我们能拥有《底特律》中卡拉小姐姐那样温柔能干的家政机器人吗?本文就来尝试解释一下这些疑惑。

家务三十六计:家政机器人都掌握了哪些技能?

首先我们来看看,在这么多人类学霸、AI巨头的助攻下,机器人都学会了哪些家务小技能。先来说说“家政狂魔”伯克利。

早在去年,我们就解读过伯克利的通用预测模型,它可以帮助机器人自主学习和掌握很多通用基础技能,在此基础上学习和预测主人的意图和任务的共性,从而可以举一反三执行广泛的任务类别,成长为一个优秀的“家务多面手”。比如折叠短裤毛巾、挪移苹果、整理桌面等等。

伯克利还推出了一个深度学习模型Dex-NET,基于角点检测和抓取策略,让机器人完成铺床单这一艰巨任务。最值得一提的是新的研究成果“偏好优化模型”。机器人不仅能完成通用任务,而且还能够推断出更优解,适应带有隐藏条件的复杂现实环境。

比如在常规的“actor-critic”增强学习反馈机制中,主人要求机器人导航前往紫色的门,那么机器人就会选择最短路径(传统意义上的最优解),而忽略这么做会打碎路上的花瓶。

因为机器人无法获知,主人是否关心花瓶会不会被打碎。但如果机器人能自己模拟和演练过去发生过的行为轨迹,比如主人一直都绕着花瓶走,说明她是重视花瓶的完整状态的,由此推断出绕过花瓶是最有可能获得奖励、应该积极追求的目标。


机器人拥有洞察隐藏条件的能力,意味着它们可以从一种状态中学习人类的偏好,系统无需事无巨细地列出所有现实环境中的因果联系和条件,奖励函数也不再是线性机械的,机器人可以自主模拟和学习过去的经验,判断和应对未知的动态环境。

对于做家务这个任务来说,判断主人的喜好来进行作业,可以说是必杀技了。与伯克利相比,Deepmind其实对医疗这种高精尖任务更感兴趣。但这并不妨碍它在家政领域发光发热。

Deepmind的“计划辅助控制SAC-X”模型,就旨在帮助机器人学会探索和掌握家务方面的基本技能。就像婴儿在爬行和走路之前必须发展出协调和平衡能力一样,SAC-X也有助于帮助机器掌握几种核心的视觉-运动技能。

声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存