2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。继而随着人工智能行业的快速发展,短短几年内,国内智能语音技术突飞猛进,整个行业市场正经历着高速的发展,越来越多的企业争相入局,智能语音真正成为风口。但是智能语音的发展是个开放性的课题,背后涉及的技术仍有不足,亟待我们的求索突破。
“停”不下来的智能机器人
就拿智能语音机器人来说,用户经常会诟病“不够智能”,尤其是不能很好地支持打断、插话,或是反应慢、自说自话等问题。目前市场上大多数语音机器人采用一问一答的交互方式,先是照本宣科 TTS 播报内容,播报完成后,再去询问和倾听客户的意见,语音识别转译后再跳转对应的对话场景流程。但在实际沟通中,客户往往喜欢根据自己的想法和判断,对沟通进行各种插话打断,比如:
“等一下”
客户意图翻译:不需要机器人继续说下去,暂停思考一下,准备切换话题
“那 XXXX 问题呢?”
客户意图翻译:直接从当前话题切换到下一个话题
“好,我知道了”
客户意图翻译:客户对机器人的回答表示已经足够了解,希望终止当前对话
一旦出现打断的情况,机器人如果不能及时响应客户的最新想法和指令意图,仍然还在上一个频道“自说自话”,客户体验就会大打折扣。“想打断的时候它不停,明明没有说话它又不讲了”,在机器人的语音识别中,经常会遇到这样的问题。一些意外的噪音,比如关门声、装修声、音乐声等,会干扰语音交互,一旦机器人识别后就会造成错误打断;而混杂在环境噪声中的真人说话声,识别不到的话,就会造成漏打断。
在智能语音机器人应用中,如何合理、准确的判定客户是否有效打断,保证客户智能交互体验,一直是长期存在的问题。