概述语音识别技术的发展及其应用

编译作者: 风车云马 2019-10-29 08:00:00

详解语音识别技术的发展

【51CTO.com快译】在我们的生活中交流起着重要的作用。人类从符号开始,然后发展到用语言交流,再后来出现了计算和通信技术。在某些情况下,机器不仅与人类交流,也与机器之间交流。计算机和通信技术创造了互联网世界,正如我们所知的物联网(IoT)。下面是涉及机器学习的语音识别技术的发展。

语音识别技术和机器学习的发展

互联网催生了使用数据的新方式,这就是机器学习。我们可以通过训练机器直接或间接地与它们交流。在此之前,我们必须访问计算机来与机器通信。

人们开始研究消除单纯依赖计算机的技术,这种技术称为自动语音识别。基于自然语言处理(NLP),我们可以在很大程度上直接与机器交互。

语音识别领域的初步研究已经取得了成功。从那时起,语音科学家和工程师就致力于优化语音识别引擎。根据实际情况优化机器的交互,从而降低错误率,提高效率。

一些机构已经开始开发微调语音识别技术。十多年来,位于弗吉尼亚州的GoVivace公司一直致力于语音识别技术和解决方案的设计和开发。

自动语音识别及其应用

自动语音识别(ASR)技术是计算机科学和语言学两个不同分支的结合。计算机科学用于设计算法和编写程序;语言学用于创建单词,句子和短语的字典。

生成语音音标

开发的第一个阶段是从语音转录开始的,在这里音频被转换成文本——语音到文本的转换。之后,系统过滤去除不需要的信号或噪声。当我们说一个单词或句子时,我们有不同的语速,因此语音识别模型还需要考虑这些语速的变化。

随后,信号被进一步划分以识别音素。音素是具有相同气流水平的字母,如“b”和“p”。程序会通过与存储在语言学词典中的单词和句子进行比较,来试图匹配准确的单词。

语音识别系统目前有两种类型。

一种类型的系统是通过学习模式来完成的,另一种是作为人的依赖系统来完成的。随着人工智能(AI)和大数据的发展,语音识别技术达到了一个新的水平。一种被称为长短时记忆的特殊神经结构在这一领域取得了显著的进步。在全球范围内,很多机构正在利用不同层次的语言能力来完成各种各样的任务。

语音文本软件可以将音频文件转换到文本文件。

许多国家没有语言嵌入式键盘,大多数人都不知道如何使用特定的语言键盘,尽管他们在语言方面很擅长。在这种情况下,语音转录帮助它们将语音转换成任何语言的文本。

实时字幕系统。

这是一个实时的应用系统。实时翻译技术被称为计算机辅助实时翻译。它基本上是一个实时操作的语音到文本系统。世界各地举办各种会议都会应用。

为了最大限度地吸引全球观众的参与,他们采用了直播字幕系统。实时字幕系统将语音转换为文本并显示在屏幕上。它可以将一种语言的演讲翻译成其他语言的文本,还可以帮助记录会议或演讲。这些系统将语音转换成文本,使听力受限的人也能阅读和理解。

语音生物识别系统

除了语音到文本,该技术还将其分支扩展到生物识别系统,从而为用户身份验证创建了语音生物识别技术。语音生物识别系统分析说话人的声音,这取决于音调、发音和其他因素。

在这些系统中,首先分析语音样本并存储为模板。当用户说出短语或句子时,语音生物识别系统会将其与存储的模板进行比较,并提供身份验证。然而,这些系统面临着许多挑战。我们的声音总是受到身体因素或情绪状态的影响。

生物语音系统的最新发展是通过将短语与样本进行匹配来实现的。然后,结合心理和行为语音信号分析语音模式。此外,语音生物识别技术的发展将有助于那些数据安全备受关注的企业。

使用语音进行分析

分析在语音识别技术的发展中起着至关重要的作用。大数据分析创造了存储语音数据的需求。呼叫中心开始使用电话录音来培训他们的员工。因为客户满意度现在是全球机构的首要关注点。现在,机构希望跟踪和分析主管和客户之间的对话。

使用呼叫分析应用程序,相关机构可以监视和测量呼叫的质量。这种呼叫分析解决方案提高了呼叫中心提供的服务质量。通过分析可以分类他们的客户,可以更好地为客户提供更快和更好的反馈。

语音识别技术还有很长的路要走

语音识别技术的研究任重而道远。到目前为止,程序只能执行指令。人类的交流感觉并不完全存在于机器中。研究人员正试图向机器灌输人类的反应能力。它们在语音识别技术创新方面还有很长的路要走。

研究的主要特点集中在如何使语音识别技术更加准确。对于人类的语言理解,我们需要更多的准确性。例如,一个人提出了一个问题,“我如何改变相机的灯光设置?”这个问题在技术上意味着个人想要调整相机的闪光灯。因此,在回答具体问题之前,要先集中精力理解人类的自由语言。

因此,总的来说,机器学习和语音识别技术已经进入全球范围,并开始提供有效的运用和高效的服务。很快,我们将会看到自动速记员得到普遍提升,并在各大会议演讲中扮演重要的角色。

原文标题:Evolution of Speech Recognition Technology,作者:Sahil Chauhan

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

语音识别
上一篇:Teradata推出Vantage Customer Experience和Vantage Analyst 下一篇:不容错过的AIOps落地关键点指南
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

被大学解雇、拒绝 Facebook,语音界大佬Daniel Povey将入职中国小米

雷军在微博宣布,国际语音识别和AI领域专家、语音识别开源工具 Kaldi 之父 Daniel Povey 将出任小米集团语音首席科学家。而在加盟小米前,Daniel Povey 曾拒绝Facebook。

亮亮 ·  2019-11-19 14:28:38
NLP极简入门指南,助你通过面试,踏入NLP的大门

弱人工智能的时代已经到来,人们每天的生活都离不开算法所提供的服务。比如:资讯类APP是根据用户偏好做的个性化推荐;出行类APP背后是算法在做最优化调度;购物类APP是根据历史购买行为和商品间相似度进行推荐。

码农三哥 ·  2019-11-19 09:35:51
语音技术市场存在发展机会,但也要注意陷阱

语音助手的兴起为市场营销人员提供了一种面向客户的新渠道。其前景一片光明:语音技术是数字和物理现实的结合,为用户进行真正意义上的情景交互开辟了空间。不过目前语音技术市场略显年轻,能否为市场营销锦上添花还值得商榷。

风车云马 ·  2019-02-19 09:00:00
国内首款真正意义的AI输入法上线 面向未来革新输入方式

百度输入法AI探索版正式亮相,这是一款默认输入方式为全语音输入,并调动表情、肢体等进行全感官输入的全新输入产品。同时,百度宣布语音技术取得一项对全球学术界和工业界都具备重大意义的技术突破。

佚名 ·  2019-01-16 18:47:53
人能识别“假笑”,那么机器人呢?

很多东西都存在国界和地域限制,但是人类对于表情的识别能力却是脱离了限制的。这也是许多人认为机器人无法取代人的根本原因,因为他们不具备情绪,更不具备识别情绪的能力,而事实真是如此吗?

工业与互联网 ·  2018-08-14 17:41:54
基于深层前馈序列记忆神经网络的大词汇量连续语音识别

本论文,我们在之前FSMN的相关工作的基础上进一步提出了一种改进的FSMN结构,称之为深层的前馈序列记忆神经网络(Deep-FSMN, DFSMN)。我们通过在FSMN相邻的记忆模块之间添加跳转连接(skip connections),保证网络高层梯度可以很好的传递给低层,从而使得训练很深的网络不会面临梯度消失的问题。

阿里巴巴授权发布 ·  2018-03-16 13:27:55
语音识别结合应用场景 唱响未来新篇章

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术走进了工业、家电、通信、汽车电子、消费电子产品等各个领域。语音识别作为人工智能发展最早、且率先商业化的技术,近几年来随着深度学习技术的突破,识别准确率大幅提升,带动了一波产业热潮。

佚名 ·  2017-04-28 13:00:42
语音识别数据库成为了人工智能的核心

语音识别数据库、语音合成 数据库是人工智能的关键技术,让机器能听会说、能像人一样的学习、理解和思考,成为人类生活和工作的得力的帮手、亲密的伴侣,一直是人类的梦想。

与羊相遇的日子 ·  2017-03-20 16:42:00
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载