重磅！谷歌的这项技术，真的要颠覆机器人行业

我们的世界正向着科幻大踏步前进。

过去几个月，ChatGPT的出现，引爆了一波人工智能热潮，这个强大的聊天机器人让我们看到了通用语言模型的生产力前景，只要继续迭代下去，有望大大提高人类社会的生产效率，在诸多行业产生变革。

而就在我们还在适应ChatGPT带来的变化时，一个更加重磅的炸弹被引爆了，前几天，谷歌和柏林工业大学的团队推出了史上最大的视觉语言模型——PaLM-E，该模型包含了5620亿个参数，相之前最大模型GPT-3的1750亿个参数，参数量翻了两倍多。

更加重要的是，PaLM-E作为一种多模态具身视觉语言模型，成功实现了让人工智能同时具备“理解文字”和“读懂图片”的能力，它不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。

可以说，PaLM-E的发布标志着人工智能领域的又一个重要里程碑，极大地推动人工智能技术的发展和应用，它不仅在技术上提高了人工智能的水平，在应用上，也能为更多领域提供更加智能、更加自主的工具和服务，比如能轻易理解人类指令的智能机器人或许并不遥远了。

视觉-语言多模态的通才模型

PaLM-E，全称Pathways Language Model with Embodied，是一种具身视觉语言模型，是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合，它的强大之处在于，能够利用视觉数据来增强其语言处理能力。

“PaLM-E是迄今为止已知的最大VLM（视觉语言模型）。我们观察到诸如多模态思维链推理（允许模型分析包括语言和视觉信息的一系列输入），只接受单图像提示训练的多图像推理（使用多个图像作为输入来做出推理或预测）等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess表示。

PaLM-E中的E，即embodied（具身化），是指基于语言模型，PaLM-E能够直接观察、利用真实世界中的信息，比如视觉图像或传感器数据，将它们编码为一系列与语言标记大小相同的向量，不再仅仅依赖于文本输入，使得机器人的智能化跃上一个新的台阶。

通过具身化功能，PaLM-E能完成即具身推理任务，即让机器人在虚拟或真实的环境中，通过多模态的输入（如语言、视觉、触觉以及机器人的3D空间状态信息等），完成一些需要常识和逻辑推理的任务。

比如你跟机器人说“帮我把桌上的薯片拿过来”，这就是一个具身推理任务，不仅需要机器人理解人类的语言和意图，还需要机器人观察和操作环境中的物体，以及规划一系列的子目标和动作，具身推理任务是一个非常复杂的领域，涉及到与多模态语言模型、神经符号系统、对话系统等各方面的技术，PaLM-E也只是初步涉及而已，不过这也已经是非常大的进步了。

除此之外，PaLM-E还表现出了强大的正迁移能力，即它可以将从一项任务中学到的知识和技能迁移到另一项任务中，从而与单任务机器人模型相比性能明显提高。

赋机器人以智能的PaLM-E

PaLM-E不仅可以指导机器人完成各种复杂的任务，还可以生成描述图像的语言，展示了前所未有的灵活性和适应性，代表着一次重大飞跃，特别是人机交互领域。

在测试中，机器人被要求去抽屉里拿薯片。根据谷歌的说法，当给出一个高级命令时，比如“把抽屉里的薯片拿给我”，PaLM-E可以为一个有手臂的移动机器人平台生成一个行动计划并执行自己的行动。PaLM-E通过分析来自机器人相机的数据来实现这一点，而无需对场景进行预处理，这消除了人类预处理或注释数据的需要，并允许更自主的机器人控制。

同时它还具有弹性，可以对环境做出反应。例如，PaLM-E模型可以引导机器人从厨房取薯片袋，而且，通过将PaLM-E集成到控制回路中，它可以抵抗任务期间可能发生的中断。在一个视频示例中，研究人员从机器人手中抓取薯片并移动它们，但机器人找到薯片并再次抓取它们。

PaLM-E还能识别图像，并生成关于它的文本信息。研究人员写道，PaLM-E也是一种“有效的视觉语言模型”。例如，它可以识别图像中的篮球明星科比·布莱恩特，并可以生成关于他的文本信息，比如他赢得了多少次冠军，在另一个例子中，PaLM-E看到一个交通标志并解释与之相关的规则。

PaLM-E的出现为机器人领域提供了更强大的工具，机器人可以更好地理解环境和交互，从而更加自主地执行任务。例如，在工厂、医院、物流中心等场景下，机器人可以通过PaLM-E更好地识别目标物体、理解工作流程、执行任务等。

结语

PaLM-E的出现可以说一个新的拐点已经到来，多模态的融合将成为未来必然的发展方向，不管是文字，还是图片，亦或者语音，都耦合到一个模型中，制造出通用的全能模型。

就如PaLM-E里面提到的，LLM（大语言模型）有个天然的局限性，就是它只在文本语料中训练，虽然积累了大量的内在知识，但无法与真实世界接触，文本世界的抽象需要用真实世界的各种信息去标定，因此若想实现AGI（通用人工智能），必须多模态。

PaLM-E这种多模态具身视觉语言模型的出现，也将让人机交互方式产生变化，以对话方式控制的产品将越来越多，毕竟谁也不想买个电子产品，就要在手机里装个App，使用时还要进行繁琐的操作，说一句话就能完成所有的操作，恐怕没有人会拒绝。

重磅！谷歌的这项技术，真的要颠覆机器人行业

相关推荐