人与机器之间,有太多秘密隐藏在未知以下。
比如说AI带来的语义理解与语音唤醒式人机交互,虽然被大家说的很神,但其实有大量难关没有被攻破。AI语音交互,往往还以来初级的符码转化和模块调用,真正让机器像人一样去理解世界,还有很长的路要走。
好在对人机交互深层秘密的探索,在今天并没有停步。一些全新的技术应用化,正在加强人与机器如何交流、协作甚至相互理解的无尽可能。
在刚刚的百度AI开发者大会中,一个重磅升级是百度大脑升级了3.0版本。这次升级之所以引人注目,是因为其在业界首次提出了“多模态深度语义理解”。
多模态、深度语义理解,这些都是我们经常在AI论文中看到的名词,但似乎从来没有科技巨头把这个词作为关键信息进行产业披露。这是为什么?
其中的隐藏信息,是人机交互通往多模态结合、深度转译之路上,一座难以翻越的高峰。
多模态深度语义理解技术,就像一个沉睡的沙漏一样,始终隐藏在细沙之下,让人难以见到真正的应用魅力。而百度大脑的3.0升级,似乎将这个沉睡经年的沙漏倒转了过来,最神秘的AI领域,开始在技术沙粒的流逝间展露了本来面目。
人机交互的秘密:AI界有个雪域高原
20世纪上半叶,社会符号学提出了模态分析的话语批判方式,而后模态理论逐步走入各个学科,成为自然科学、计算机科学与人文科学的重要三岔口之一。而在自然语言处理成为AI重镇之后,多模态话语融合也开始被AI思想家们提上了日程。
我们知道,AI进行语音交互时的基本逻辑,是要把一切语音进行识别,转化为文字符码再进行文本理解。而语音理解与视觉、传感相关的模态融合更是难上加难,堪称人机交互进程中的“高海拔地带”。
但我们不妨思考一下,人的思维方式其实并不是单一模态的信息转化。而是五感并用,语音语义一体化理解,无间隙给出交流反应。
换言之,机器最接近人的交流方式,就是多模态输入与融合化的语义理解。而类似自然交互的技术难点,在于不同模态的视觉、语音、语音、传感信号,是构建在完全不同的数据编码之上的。整合与再学习始终都是AI领域的难点,尤其是应用领域的难点。
价值极大,难度极高,把多模态深度语义理解堆积成了AI领域的雪域高原。无数开发者都在翘首以盼先导者能够翻越这座大山。
在这次百度AI开发者大会上,百度大脑非常自信地将升级矛头对准了这个最神秘的AI沙漏。主打多模态深度语义理解技术的底层开发,可谓打开了通往无尽技术应用与难预测上线的AI大门。
技术乘法:多模态深度语义理解的应用流沙效应
多模态深度语义理解之所以重要,从应用的角度看,是因为它把视觉、语音、语义、传感,以及泛深度学习类交互整合到了一起,让技术间不再是并行的通道,而是打开了彼此融合的想象之门,并且在利用深度学习技术,强化了语义理解的精准度与容纳范畴,视线了语音语义的一体化融合。可以想见的是,多模态深度语义理解,将会在技术突破之后带来大量的眼神技术与子应用,从而改变我们对AI识别、语音控制、人机交互的边界认识。