18秒起飞！

在过去十年中，四旋翼无人机的变化令人惊讶。如今，它们广泛应用于生活的各个领域，从政府监督巡查、事故状况测绘，到影视拍摄、快递运输和搜索救援。

至少从商业或研究的角度来看，只要几千元就可以买到一架不错的无人机，我们所需要做的只是教它飞行。可是想要让一架四旋翼，实现稳定的离地飞行，通常需要在参数调试、程式开发、试飞实验上耗费较多时间。

近日，纽约大学和TII（敏捷机器人和感知实验室与技术创新研究院）的研究人员针对无人机的飞行流程简化提供了新思路，成功在消费级笔记本电脑上通过快速模拟将机器人送上天空。

通过应用深度强化学习和仿真技术，他们开发出的系统只需要18秒，就可以将一架从未飞行过的四旋翼无人机“教会”如何稳定起飞和悬停。不仅起飞时间短，整个过程的运行硬件条件也非常低：一台MacBook Pro就可以做到。

深度强化学习，“无师自通”

想要让一台计算机独立控制复杂的四旋翼飞行，核心就是要实现自主学习和决策的算法。

什么是强化学习？简单来说，它是一种与环境进行交互的训练方法，算法会尝试不同的行动，根据行动带来的奖励或惩罚来调整自己的策略，以在训练过程中最大化累积的奖励。

研究人员不需要事先定义一个复杂的控制模型，或者人工指定飞行所需要的所有特征和参数，算法会自主探索最优策略，让四旋翼“无师自通”。

仿真环境，安全高效

要让四旋翼学习飞行，最直接的方法就是让它不断在现实中试飞，再根据飞行结果调整算法。但这样做的风险和代价都极高，一是需要大量成本，二是一次试飞又一次坠落都是对设备的损耗。

纽约大学研究团队的解决办法，就是构建一个与真实环境极为逼真的数字仿真平台。

在这个仿真世界中，四旋翼可以不断起飞、盘旋、着陆，无人机可以像在现实中一样获取状态信息并做出决策。而一旦发生意外，只需要重置系统，无需担心设备损坏。

这样高效且安全的训练环境为算法迭代提供了巨大便利。团队还利用了Apple M系列处理器附加的硬件加速，使得训练时间进一步缩短，大大提升模拟效率。

课程驱动，有效避免过拟合

除了深度强化学习和仿真技术外，这个研究中设计的“课程驱动”策略也对快速训练产生了重要作用。

所谓课程驱动，就是根据训练进程的不同阶段，动态调整奖励机制。开始时奖励较多行为，鼓励算法足够探索，后期仅奖励优化目标，并逐渐增加惩罚以强调稳健性和可靠性。

这种方法的好处是可以高效避免过度拟合特定环境。有些系统在复杂仿真中表现很好，但一到真实情景就失效，原因即在于过度依赖某些模拟参数。而动态调整奖励目标能促使算法关注真正重要的性能指标。

并且18秒内完成的不仅是起飞，事实上四旋翼已经能保持稳定悬停、躲避轻推并能按照特定轨迹飞行。

18秒，只是开始

虽然18秒的数字令人惊艳，但或许你不禁要问：仅仅18秒完成的训练，真的足以应对复杂环境中的各类未知情况吗?

的确，目前仍有一定局限性。比如现有训练仍过于理想化，无法涵盖所有情形，例如不同载荷情况下的响应能力、不同环境光线对视觉的影响等，仍需进一步扩充训练样本。

但展望未来，18秒只是一个开始，或许下一个18秒，会带来更多难以预料的惊喜。

相关推荐