视觉问答作为一种典型的多模态学习任务,在近年来受到计算机视觉和自然语言处理两个领域研究人员的重点关注。给定一张图片和用户提出的一个自然语言问题,视觉问答系统需要在理解图片和自然语言问题的基础上,进一步输入该问题对应的答案,这需要视觉问答方法在建模中能够对图像和语言之间的信息进行充分地理解和交互。
我们在今年的 CVPR 和 KDD 大会上分别提出了基于问题生成的视觉问答方法(Li et al., 2018)以及基于场景图生成的视觉问答方法(Lu et al., 2018),这两种方法均在视觉问答任务上取得了非常好的结果,实现了 state-of-the-art 的效果。除视觉问答外,视频问答是另一种最近广受关注的多模态任务。该任务除了包括带有时序的视频信息外,还包括了音频信息。目前,视频问答作为一种新型的问答功能,已经出现在搜索引擎的场景中。可以预见,该任务在接下来一定还会受到更多的关注。
未来展望:理想的 NLP 框架和发展前景
我们认为,未来理想状态下的 NLP 系统架构可能是如下一个通用的自然语言处理框架:
首先,对给定自然语言输入进行基本处理,包括分词、词性标注、依存分析、命名实体识别、意图/关系分类等。
其次,使用编码器对输入进行编码将其转化为对应的语义表示。在这个过程中,一方面使用预训练好的词嵌入和实体嵌入对输入中的单词和实体名称进行信息扩充,另一方面,可使用预训练好的多个任务编码器对输入句子进行编码并通过迁移学习对不同编码进行融合。
接下来,基于编码器输出的语义表示,使用任务相关的解码器生成对应的输出。还可引入多任务学习将其他相关任务作为辅助任务引入到对主任务的模型训练中来。如果需要多轮建模,则需要在数据库中记录当前轮的输出结果的重要信息,并应用于在后续的理解和推理中。
显然,为了实现这个理想的 NLP 框架需要做很多工作:
需要构建大规模常识数据库并且清晰通过有意义的评测推动相关研究;
研究更加有效的词、短语、句子的编码方式,以及构建更加强大的预训练的神经网络模型;
推进无监督学习和半监督学习,需要考虑利用少量人类知识加强学习能力以及构建跨语言的 embedding 的新方法;
需要更加有效地体现多任务学习和迁移学习在 NLP 任务中的效能,提升强化学习在 NLP 任务的作用,比如在自动客服的多轮对话中的应用;
有效的篇章级建模或者多轮会话建模和多轮语义分析;
要在系统设计中考虑用户的因素,实现用户建模和个性化的输出;
构建综合利用推理系统、任务求解和对话系统,基于领域知识和常识知识的新一代的专家系统;
利用语义分析和知识系统提升 NLP 系统的可解释能力。
未来十年,NLP 将会进入爆发式的发展阶段。从 NLP 基础技术到核心技术,再到 NLP+的应用,都会取得巨大的进步。比尔盖茨曾经说过人们总是高估在一年或者两年中能够做到的事情,而低估十年中能够做到的事情。
我们不妨进一步想象十年之后 NLP 的进步会给人类生活带来哪些改变?
十年后,机器翻译系统可以对上下文建模,具备新词处理能力。那时候的讲座、开会都可以用语音进行自动翻译。除了机器翻译普及,其他技术的进步也令人耳目一新。家里的老人和小孩可以跟机器人聊天解闷。
机器个人助理能够理解你的自然语言指令,完成点餐、送花、购物等下单任务。你已习惯于客服机器人来回答你的关于产品维修的问题。
你登临泰山发思古之幽情,或每逢佳节倍思亲,拿出手机说出感想或者上传一幅照片,一首情景交融、图文并茂的诗歌便跃然于手机屏幕上,并且可以选择格律诗词或者自由体的表示形式,亦可配上曲谱,发出大作引来点赞。
可能你每天看到的体育新闻、财经新闻报道是机器人写的。
你用手机跟机器人老师学英语,老师教你口语,纠正发音,跟你亲切对话,帮你修改论文。
机器人定期自动分析浩如烟海的文献,给企业提供分析报表、辅助决策并做出预测。搜索引擎的智能程度大幅度提高。很多情况下,可以直接给出答案,并且可以自动生成细致的报告。
利用推荐系统,你关心的新闻、书籍、课程、会议、论文、商品等可直接推送给你。
机器人帮助律师找出判据,挖掘相似案例,寻找合同疏漏,撰写法律报告。
……
未来,NLP 将跟其他人工智能技术一道深刻地改变人类的生活。当然前途光明、道路曲折是亘古不变的道理,为了实现这个美好的未来,我们需要大胆创新、严谨求实、扎实进取。讲求研究和应用并举,普及与提高同步。我们期待着与业界同仁一道努力,共同走进 NLP 下一个辉煌的十年。