在过去十年中,四旋翼无人机的变化令人惊讶。如今,它们广泛应用于生活的各个领域,从政府监督巡查、事故状况测绘,到影视拍摄、快递运输和搜索救援。
至少从商业或研究的角度来看,只要几千元就可以买到一架不错的无人机,我们所需要做的只是教它飞行。可是想要让一架四旋翼,实现稳定的离地飞行,通常需要在参数调试、程式开发、试飞实验上耗费较多时间。
近日,纽约大学和TII(敏捷机器人和感知实验室与技术创新研究院)的研究人员针对无人机的飞行流程简化提供了新思路,成功在消费级笔记本电脑上通过快速模拟将机器人送上天空。
通过应用深度强化学习和仿真技术,他们开发出的系统只需要18秒,就可以将一架从未飞行过的四旋翼无人机“教会”如何稳定起飞和悬停。不仅起飞时间短,整个过程的运行硬件条件也非常低:一台MacBook Pro就可以做到。
深度强化学习,“无师自通”
想要让一台计算机独立控制复杂的四旋翼飞行,核心就是要实现自主学习和决策的算法。
什么是强化学习?简单来说,它是一种与环境进行交互的训练方法,算法会尝试不同的行动,根据行动带来的奖励或惩罚来调整自己的策略,以在训练过程中最大化累积的奖励。
研究人员不需要事先定义一个复杂的控制模型,或者人工指定飞行所需要的所有特征和参数,算法会自主探索最优策略,让四旋翼“无师自通”。
仿真环境,安全高效
要让四旋翼学习飞行,最直接的方法就是让它不断在现实中试飞,再根据飞行结果调整算法。但这样做的风险和代价都极高,一是需要大量成本,二是一次试飞又一次坠落都是对设备的损耗。
纽约大学研究团队的解决办法,就是构建一个与真实环境极为逼真的数字仿真平台。
在这个仿真世界中,四旋翼可以不断起飞、盘旋、着陆,无人机可以像在现实中一样获取状态信息并做出决策。而一旦发生意外,只需要重置系统,无需担心设备损坏。
这样高效且安全的训练环境为算法迭代提供了巨大便利。团队还利用了Apple M系列处理器附加的硬件加速,使得训练时间进一步缩短,大大提升模拟效率。
课程驱动,有效避免过拟合
除了深度强化学习和仿真技术外,这个研究中设计的“课程驱动”策略也对快速训练产生了重要作用。
所谓课程驱动,就是根据训练进程的不同阶段,动态调整奖励机制。开始时奖励较多行为,鼓励算法足够探索,后期仅奖励优化目标,并逐渐增加惩罚以强调稳健性和可靠性。
这种方法的好处是可以高效避免过度拟合特定环境。有些系统在复杂仿真中表现很好,但一到真实情景就失效,原因即在于过度依赖某些模拟参数。而动态调整奖励目标能促使算法关注真正重要的性能指标。
并且18秒内完成的不仅是起飞,事实上四旋翼已经能保持稳定悬停、躲避轻推并能按照特定轨迹飞行。
18秒,只是开始
虽然18秒的数字令人惊艳,但或许你不禁要问:仅仅18秒完成的训练,真的足以应对复杂环境中的各类未知情况吗?
的确,目前仍有一定局限性。比如现有训练仍过于理想化,无法涵盖所有情形,例如不同载荷情况下的响应能力、不同环境光线对视觉的影响等,仍需进一步扩充训练样本。
但展望未来,18秒只是一个开始,或许下一个18秒,会带来更多难以预料的惊喜。