将深入强化学习应用到行动任务还有很多挑战,因为任务超出了图像和声音被动识别技术的能力范围。“在一个非结构化的3 D环境中的移动是一个完全不同的概念,”切尔西芬恩说。“没有方向标签,事先没有如何解决问题的例子。没有正确解决问题的语音和视觉识别程序的例子。”
熟能生巧
在实验中,加州大学伯克利分校的研究人员使用一个绰号为布雷特的人形机器人。研究人员给布雷特提出了一系列的运动任务,比如将块放入匹配开口中或叠加乐高积木。该算法控制布雷特的学习,还包括奖励函数,这个函数会根据任务机器人完成任务的程度给出一个分数。
布雷特通过相机观察自己的胳膊和手的位置,算法通过机器人移动获得的分数提供实时反馈。使机器人更接近完成任务的动作比那些远离完成任务的动作得分更高。得分通过神经网络反馈,因此,机器人可以学习哪些运动更适合手头的任务。
这个端到端培训过程构成机器人的自主学习能力。当PR2移动它的关节和操纵对象的时候,该算法计算神经网络需要学习的92000个最优参数值。
使用这种方法,并给出开始和结束的相关协调任务的时候,PR2能在大约10分钟的时间里掌握典型的任务。当不给定场景中对象的位置并且需要学习视觉学习和控制学习的时候,学习过程大约需要三个小时。
Abbeel说由于处理大量数据的能力的提升,这一领域可能会看到显著、快速的发展。“使用更多的数据,您可以开始学习更复杂的事情,”他说。“在我们的机器人可以学习打扫房子或洗衣服之前,我们还有很长的路要走。但是我们的初步研究结果表明,这类深度学习技术可以对机器人完全从头开始学习复杂任务处理产生变革性影响。在未来5到10年,通过一些列的工作,我们可能会看到机器人学习能力显著的进步。”