语音识别数据库成为了人工智能的核心

作者: 与羊相遇的日子 2017-03-20 16:42:00

语音识别数据库、语音合成 数据库是人工智能的关键技术,让机器能听会说、能像人一样的学习、理解和思考,成为人类生活和工作的得力的帮手、亲密的伴侣,一直是人类的梦想。随着近半 个世纪智能语音技术的进步和深度神经网络技术(DNN)的工程化应用,人类正不断的接近这个梦想,这个梦想也同时极大的驱动着智能语音技术的发展。最初, 人们只能让机器发出类似人的声音,比如18世纪后半叶欧洲人制造的Kempelen讲话机,它能说出有限的词和短句。经历了两个多世纪,现在的“聊天机器 人”不仅能以自然度很高的声音与人交流、还会调侃、卖萌。20世纪50年代AT&T贝尔实验室的Audry,它可以识别十个英文数字。现在,语音 识别技术的自然语言识别正确率已经高于95%。

微软发布的“小冰”,和百度发布的“度秘”,再一次在人群中掀起人工智能和人机交互的热潮。

为了深刻的了解在“小冰”和“度秘”聪明伶俐、能听会说背后的秘密,记者专访了”北京海天瑞声科技有限公司”的CEO唐涤飞先生。作为国内、乃至亚洲***的人工智能数据资源供应商,“海天瑞声”在语音合成(TTS)、语音识别(ASR)、自然语言理解(NLP)和机器翻译(MT)等技术领域的基础数据资 源开发领域,积累了17年的专业经验。就智能语音基础数据资源而言,目前已经拥有116种语言、覆盖70多个国家和地区的数据资源制造能力。

小冰和度秘对人发出的指令的理解能力,比之前的语音助手表现要好很多。在百度世界大会上,面对李彦宏的种种刁难,度秘应对自如,不仅帮“厂长”在网上订 了 两杯拿铁,还订好了可以带宠物的餐厅,在网上团购了动画片电影票。那么,“小冰”和“度秘”能准确理解人的指令的提问背后的秘密是什么呢?

唐涤飞先生说,这是由于语音识别(ASR)技术和自然语言理解(NLP)技术的巨大创新和进步,从最初的 DNN 模型到现在的 LSTM 模型,从机器学习(ML)到深度学习(DL),每次技术创新都给用户带来了全新的体验。不仅如此,在训练语音识别引擎中所使用的基础语音语料库,也是至关 重要的因素。在设计语料时,需要专业的语言学家根据特定语言的语言学现象,全面考虑语料领域分布、应用场景分布、语料时效性等因素,同时借助相应的NLP 处理技术和标注团队来确保数据库语料池的规模和结构科学合理、音素覆盖与平衡、句意完整、语义连贯、拼写正确且易读可懂,***再按照发音人分布、口音分 布、文本分布、音素分布、场景分布等条件通过采用相应的算法如DTW动态规则算法对发音人的文本进行抽取形成特定发音的文本。

由于口音、年 龄、教育背景和生活地区的不同,不同的人表达同一个意思、问同一个问题,甚至说同一句话,都会有细微的千差万别。比如,在智能客服应用中,机器人不仅要听 懂客户的话,还要能识别客户的情绪,比如,根据其情绪是焦躁还是平静,或根据客户情绪的变化,来判断他是变得生气了,还是慢慢消气了,而采取不同的处理优 先级和反馈方式。这就涉及要在训练语料中引入情绪因素。但目前小冰和度秘还不能完全做到这一点。

据唐涤飞先生介绍,为了让“小冰”能用自然甜 美流畅的声音说话,大规模的语音合成(TTS)数据库的设计和开发,从根本性上决定了用户对她的体验。在数据库的设计上,首先要选择年龄和音质合适的发言 人,她的声音要年轻、阳光、伶俐且充满活力。其次,在数据库的设计上,要充分考虑到语言和音素的全面覆盖,语料主要来自海量的聊天对话语料。为了强调小冰 是个有情感的小姑娘,她不仅会一本正经的说话,也会生气、卖萌,因此,需要在语料设计中增加很多口语化的句子和网络用语,甚至还有网络小说里的段落。同 时,还要有常用的英语词汇、中英混合词汇、数字串、地名等专用语料。在人的自然语言中,同一句话在不同的情境里,说出来的语调和韵律是不一样的。因此,在 语料设计中,还要考虑到这些因素。如此一来,语料库的规模往往就要在上万句甚至数万句。从某种程度上说,语音合成语料库设计的失败,会极大的抵消掉语音合 成技术的进步。

从小冰和度秘这样的聊天机器人,到真正的机器伴侣,人类还有一段很长的路要走,还有许多困难需要克服。她必须能更准确的听懂并 响应对她发出的各种指令,还要能“理解”人的情绪变化和情感需要,能进行 “思考“,从而为人提供更接近于真实的人的服务,包括情感支持和慰藉。在语言表达方面,也要更接近人类的真实情感和情绪的表达,要更自然流畅。造成这种困 难的原因当然是多方面的,唐涤飞先生从其中一个方面做了解释,那就是基础数据资源的缺乏和成本居高不下。如上面所提到的,为了让聊天机器人能够尽可能的听 懂、甚至真正能“理解”人的语言和情绪,对基础数据资源设计者和开发者,就提出了更高的要求。

语音识别 数据库 人工智能
上一篇:人工智能时代,科技人员会丢了饭碗? 下一篇:机器视觉将会是人工智能的下一个前沿领域
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

大数据和人工智能如何协同工作

人工智能和机器学习如何帮助组织从大数据中获得更好的业务见解?需要了解人工智能和大数据分析的下一步发展。大数据技术并不像几年前那样广受关注,但这并不意味着大数据技术没有得到发展。如果说有什么不同的话,那就是大数据的规模正在变得越来越大。

Kevin Casey ·  1天前
麻省理工学院开发出组装机器人:未来可建造太空殖民地

麻省理工学院博士生本杰明·杰内特(Benjamin Jenett)和原子中心的尼尔·格申费尔德教授(Neil Gershenfeld)在《电气电子工程师学会机器人与自动化快报》科学期刊上发表报告称,开发出一种组装机器人原型,它可以用很小的零件制成大型结构。

技术力量 ·  1天前
刷脸取件被小学生“破解”!丰巢紧急下线 精选

近日,#小学生发现刷脸取件bug#的话题引发关注!这是真的吗?都市快报《好奇实验室》进行了验证。

好奇实验室 ·  1天前
深度学习/计算机视觉常见的8个错误总结及避坑指南

人类并不是完美的,我们经常在编写软件的时候犯错误。有时这些错误很容易找到:你的代码根本不工作,你的应用程序会崩溃。但有些 bug 是隐藏的,很难发现,这使它们更加危险。

skura ·  1天前
AI艺术日渐繁荣,未来何去何从? 精选

利用人工智能创作而成的画作近年来越来越受瞩目,有的作品甚至能在知名拍卖行拍得高价。但这类作品仍有不少问题需要解答,比如它的作者是开发出算法的程序员还是计算机呢?AI艺术的市场未来将走向何方呢?

网易智能 ·  1天前
人工智能如何改变医疗保健行业

人工智能医疗公司的首席执行官对于人工智能在医学上的应用,如何购买人工智能解决方案,以及人工智能在医疗领域的未来发展进行了阐述。

James Maguire ·  2天前
2019年深度学习自然语言处理十大发展趋势 精选

自然语言处理在深度学习浪潮下取得了巨大的发展,FloydHub 博客上Cathal Horan介绍了自然语言处理的10大发展趋势,是了解NLP发展的非常好的文章。

HU数据派 ·  2天前
4 分钟!OpenAI 的机器手学会单手解魔方了,完全自学无需编程 精选

OpenAI 的机器手学会单手解魔方了,而且还原一个三阶魔方全程只花了 4 分钟,其灵巧程度让人自叹不如。

佚名 ·  2天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载