谷歌首席架构师Jeff Dean：2018谷歌AI重大突破

对于谷歌的研究团队来说，2018 年是令人兴奋的一年。Google Research 通过多种方式推动技术研究工作，包括基础计算机科学研究成果和出版物，以及多项研究被应用在谷歌的新兴领域（如医疗保健和机器人）、开源软件贡献，以及与谷歌产品团队的密切合作，所有这些都旨在提供有用的工具和服务。接下来，我们将重点介绍谷歌研究院在 2018 年所做的一些工作。

道德和 AI

在过去几年中，我们看到了 AI 的重大进步，以及这些进步为我们的产品和数十亿用户日常生活带来的积极影响。我们深切地希望 AI 能够造福我们的世界，并且能够充分遵守道德原则，帮助我们解决对社会有益的问题。今年，我们发布了“谷歌 AI 原则”，并提供了一系列实践支持，其中概述了用于实现 AI 的技术建议。总的来说，它们为评估我们的 AI 开发提供了一个框架，我们希望其他组织也能够使用这些原则来帮助他们塑造自己的思维。

值得注意的是，由于这一领域的发展非常迅速，随着我们和其他人在 ML 公平性和模型可解释性等领域进行新的研究，原则中提到的一些最佳实践，如“避免创建或加强不公平的偏见”或“对人类负责”，也在不断变化和改进。这项研究反过来促进了我们的产品的进步，使其更具包容性并减少偏见，例如我们在谷歌翻译中减少性别偏见，并允许探索和发布更具包容性的图像数据集和模型，让计算机视觉推动全球文化的多样性。此外，我们借助这项工作与广泛的研究社区分享一些最佳实践，例如机器学习速成课程中的公平模块。

AI 和社会公益

AI 将对社会多个领域产生巨大的潜在影响，这是显而易见的。应用 AI 来解决现实问题的一个例子是我们在洪水预测方面所做的工作。我们与谷歌的其他多个团队合作，旨在及时提供发生洪灾的可能性和受灾范围的准确信息，让洪灾易发地区的人们能够更好地决定如何最好地保护自己和他们的财产。

第二个例子是我们关于地震余震预测的工作。我们展示了一个机器学习模型，它可以比传统的基于物理的模型更准确地预测余震位置。更重要的是，因为 ML 模型的设计是可解释的，科学家们已经能够对余震的行为做出新的发现，所以不仅可以得到更准确的预测，而且可以达到新的理解水平。

我们还看到了大量的外部参与者，他们与谷歌研究人员和工程师合作，使用 TensorFlow 等开源软件来解决各种科学问题和社会问题，例如使用卷积神经网络识别座头鲸呼叫、检测新的系外行星、识别患病的木薯植物，等等。

为了促进这一领域的创新活动，我们与 google.org 合作发布了“Google AI for Social Impact Challenge”，个人和组织可以从总计 2500 万美元的资金中获得资助，以及来自谷歌研究科学家的指导和建议。

辅助技术

我们的大部分研究都集中在使用 ML 和计算机科学来帮助用户更快更有效地完成任务。通常，这涉及到与各种产品团队合作，以便将研究成果应用在各种产品中。其中的一个例子是 Google Duplex，这个系统涉及了多项技术，包括自然语言处理和对话理解、语音识别、文本到语音转换、用户理解和有效的 UI 设计，这样用户就可以说“你能帮我预订今天下午 4 点钟的理发吗？”，然后一个虚拟代理将通过电话帮你处理其余的事情。

其他例子还包括 Smart Compose，一种使用预测模型提供有关如何撰写电子邮件的相关建议、让编辑电子邮件变得更快更容易的工具，以及 Sound Search，一种基于 Now Playing的技术，让你可以更快更准确地知道正在播放的是什么歌曲。此外，Android 中的 Smart Linkify通过设备上的 ML 模型来了解用户选择的文本类型，然后在手机屏幕上显示对用户来说更有用的文本类型（例如，如果用户选择文本是地址类型，那么就提供这个地址的地图链接）。

我们研究的一个重点是让像谷歌智能助理这样的产品支持更多的语言，并且可以更好地理解语义相似性，即使用户使用了不同的方式来表达相同的概念或想法。这些新功能是基于我们在改进语音合成和文本到语音转换方面的工作。

量子计算

量子计算是一种新兴的计算范式，它承诺能够解决经典计算机无法解决的挑战性问题。在过去的几年中，我们一直在积极从事这方面的研究。我们相信，我们至少在一个问题上已经进入状态（所谓的量子霸权），这将是该领域的一个分水岭事件。在过去的一年里，我们取得了很多令人兴奋的进展，包括开发了一种新的 72 量子位计算设备 Bristlecone。

科学家 Marissa Giustina 在 Santa Barbara 的量子 AI 实验室安装 Bristlecone 芯片

我们还发布了量子计算机开源编程框架 Cirq，并探讨了如何将量子计算机用于神经网络。最后，我们分享了我们在量子处理器性能波动方面的经验和技术，以及如何将量子计算机作为神经网络计算基板的一些想法。我们期待 2019 年量子计算领域会取得更加令人兴奋的成果！

自然语言理解

2018 年，谷歌在自然语言方面的研究也相当令人振奋，其中包括基础性研究和以产品为中心的合作成果。我们对 2017 年的 Transformer 工作进行了改进，得到了一个叫作 Universal Transformer 的并行版本，在包括翻译和语言推理在内的多个自然语言任务中都显示出巨大的进步。我们还开发了 BERT，这是第一个深度双向的无监督语言表示，仅使用纯文本语料库进行预训练，然后通过转移学习对各种自然语言任务进行调优。BERT 在 11 种自然语言任务中比之前的最新成果具有更好的表现。

除了与各种研究团队合作以实现 Smart Compose 和 Duplex 之外，我们还努力让谷歌智能助理能够更好地处理多语言，目标是让助理能够自然地与用户进行对话。

感知研究

我们的感知研究解决了计算机在理解图像、声音、音乐和视频方面的大难题，并为图像捕获、压缩、处理、创造性表达和增强现实提供了更强大工具。2018 年，我们通过技术改进了 Google Photos 组织用户最关心的内容的能力，例如人和宠物。Google Lens 和 Google Assistant 帮助用户了解自然世界、实时回答用户的问题。谷歌 AI 的一个关键使命是让人们能够从我们的技术中受益。今年，我们在改进 Google API 的功能和构建块方面取得了很大进展，包括 Cloud ML API 中的视觉和视频能力增强和基于 ML Kit 的面部识别相关的构建块。

Google Lens 可以帮助你了解周遭世界的更多信息。例如，Lens 可以识别出狗的品种。

2018 年，我们在学术研究方面的贡献还包括用于 3D 场景理解的深度学习，例如立体放大，可以合成新型的场景视图。我们在更好地理解图像和视频方面的研究让用户能够在谷歌产品（例如 Photos、YouTube、Search 等）中查找、组织、增强和改进图像和视频。2018 年的一些值得注意的进展还包括一个用于人体关节姿势估计和人体实例分割的模型、一个用于可视化复杂运动的系统、一个用于模拟人与物体之间的时空关系的系统，以及基于蒸馏（distillation）和 3D 卷积的视频动作识别的改进。

在音频方面，我们提出了一种用于语义音频表示的无监督学习方法，以及对可表达和近似人类的语音合成做出了显著的改进。多模态感知是一个越来越重要的研究课题。“Looking to Listen”将输入视频中的视觉和听觉因素结合起来，以便隔离和增强视频中发声主体的语音。这项技术可以支持一系列应用，从语音增强和视频识别、视频会议到助听器改进，尤其是在有多人讲话的情况下。

在资源有限的平台上实现感知变得越来越重要。MobileNetV2 是谷歌的下一代移动计算机视觉模型，我们的 MobileNets 被广泛应用于学术界和工业界。MorphNet 提出了一种有效的方法来学习深度网络结构，从而能够在计算资源有限的情况下在图像和音频模型上实现全面的性能改进。

余下全文 1/4

谷歌首席架构师Jeff Dean：2018谷歌AI重大突破

相关推荐