在信息交流的方式和语言上面,对于人类来说是一件很容易做的事。然而,于机器而言语音识别就不会那么简单了,其中涉及的技术以及逻辑都很繁琐。

语音识别,又称为自动语音识别(AutomaticSpeechRecognition,ASR),指计算机可以自动将人类的语音内容转换成相应的文本,然后呈现给人类的技术。语音识别技术已有50多年的历史。近年来,语音识别技术得到了广泛的应用才刚刚开始。随着移动设备、可穿戴设备、智能家居设备、智能电话机器人或系统的日益普及,对话交互逐渐成为人机交互的焦点。

1、语音识别的组成部分
语音识别主要由以下基本模块组成:信息处理与特征处理、声学模型(AM)、语言模型(LM)、发音(语音)字典和×××。

信号处理和特征提取。
它是系统语音识别的第一个步骤,也是第一个部分。在接受原始的音频信号的同时还要为后续的升学模型提取适当的的代表性特征向量,就是由它来完成。在信号的处理方面,它能够在比较嘈杂的环境下把人声识别率提到最优解。

声学模型。
提到声学,就不得不提到大名鼎鼎隐马尔科夫模型,通常的语音识别系统都能通过这个模型对词、音节、音素等基本声学单元进行建模,然后生成模型。简单来讲就是对发声建模,把语言输出转换为声学输出。

语言模型。
语言模型用于对系统需求辨认的语言进行建模。各种语言模型,包括和上下文无关语句,都能够用作言语模型。现在,大多数语音辨认体系普遍采用计算N-gram模型及其变体。它能够通过训练学习单词和单词之间的联系来估量假设单词序列的可能性。

发音词典。
发音词典包含系统所能处理的单词的集合及其发音。发音词典得到了声学模型建模单元和语言模型建模单元之间的映射关系,将两者连接起来,组成一个搜索的状态空间用于×××进行解码工作。
发音词典包含系统可以处理的单词及其发音的集合。语音字典获取声学模型构建单元与语言模型构建单元之间的映射关系,并将它们连接起来形成一个搜索状态空间,有了两者的相互结合就可以用于×××解码工作。

×××。
这是一个语音识别系统的最核心部分之一,一款合格的电话机器人好不好用就要看这里,作为语音识别系统的核心之一,其任务主要负责读取输入的语音信号的特征序列,再根据声学模型、语言模型及发音词典,解码出以最大概率输出该信号的词串。
语音识别就是一个先编码后解码的过程,信号处理和特征提取就是编码的过程,由原始的语音得到语音向量。后面即是对语音向量的解码,而解码需要上面提到的声学模型和语言模型。

2、机器如何识别语音
对于计算机室视觉来说,语音识别更为纯粹,因为只有一个核心的任务,就是讲人类的语言转化为机器人能够编译的数据然后转化为文本然后呈现出来。简单来说这些文本就是将声音帧切成音素再组合成单词,也就使语音转化成了文本。

3、语音识别的应用及发展
因为上诉技术逐渐成熟,催生出了电话机器人,这是近几年兴起的人工智能产品,以欧能智能机器人为例子,它主要通过电话群呼潜在客户,沟通进行信息筛选,帮助企业选择意向客户。企业使用电话机器人可以减少人工成本,提高工作效率。这些方面的应用能极大的减少人工上面的成本,很多企业的发展也不会拘泥。

从大的方向上面来说,虽然语音识别技术仍然还有许多亟待提高的地方,比如方言的语音识别、高噪音环境下的语音识别等方面还有一段路要走。但不可否认的是,随着信息技术的不断发展,语音识别技术也将不断获得突破,有着更加广阔的发展空间。