机器学习和自然语言处理技术的进步为语音与人工智能的交互提供了可能。人们可以通过对话获得信息,并与机器互动,而机器将不再只存在于科幻小说中。语音交互是未来的发展方向。智能扬声器是语音交互着陆的第一代产品。

以市面上面流行的智能电话机器人为例,他的AI模块主要包含了4部分自动语音识别(Automatic Speech Recognition, ASR),自然语言理解(Natural Language Understanding, NLU)
,自然语言生成(Natural Language Generation, NLG),文字转语音(Text to Speech, TTS)


以欧能智能机器人中的语音交互流程图为例子,来看看Ai智能机器人对话技术的主要路径:

在上图我们可以看到,用户使用的时候是与设备进行交互完成的,并且主要是采用语音的处理方式。

要想完整完整的完成语音交互,必须要弄懂流程,这是一款电话机器人好不好用的关键,一次成功的语音交互流程,主要涉及以下4个阶段,且环环相扣。

意图
表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户。

识别意图—语义解析
对语音识别结果进行分析理解,简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构,用户通过说出满足这种结构的语句,来调用意图。

处理意图—云端交互
调用意图的结构化请求,向服务器请求处理后做出反馈响应。 通俗来讲该流程主要处理用户的请求,解决用户问题的答案。

语言合成模块 – 组织语言
根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。 同时将生成模块生成的句子转换成语音输出。(把回答的机器语言再转换成 口语语言)

整个流程虽然看起来较为简单,但是中间的自然语言处理的关键技术是必须要掌握的。

词法分析
词汇分析包含形态和词汇。一般来说,形态素主要反映在单词的前缀和后缀的分析上,词汇反映在整个词汇体系的控制上。在中文全文检索系统中,在中文信息、即中文自动单词分割技术的单词分割中,词汇分析主要出现。利用该技术,能够正确解析用户输入信息的特性,完成正确的搜索过程。是中文全文检索技术的重要发展方向。

句法分析
句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。

语义分析
语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。

语用分析
语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。

语境分析
语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。

 智能电话机器人对话目前存在的问题
在人与机器的会话过程中,用户必然会犯表达错误,导致用户语言机械理解的偏离。此时,错误修正机构对于机器来说非常重要。如果这个机制不能利用,用户显然需要花费很长时间来说明他们的意图,并且对应的用户经验非常坏吧。另一方面,能够很好地认识语音,但是不能理解对话的目的,有理解意义的偏颇。因此,语音对话中应解决的问题是模糊消除和未知语言现象的处理。

智能语音助手背后的生态服务
一个好的智能电话机器人要想落地开花,它不仅仅是简单的语音识别那么简单,还有集成服务,一整套的中文生态、内容、服务等配套设施,是一种涵盖很多基础能力的生态系统。
未来基于语音交互的语义技能,必须要能够达到几万、几十万甚至上百万种的时候,才能促使语音交互时代操作系统真正走向成熟,未来语音交互产品的形态和样式也将越来越丰富。