语音识别结合应用场景 唱响未来新篇章

作者: 佚名 2017-04-28 13:00:42

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术走进了工业、家电、通信、汽车电子、消费电子产品等各个领域。语音识别作为人工智能发展最早、且率先商业化的技术,近几年来随着深度学习技术的突破,识别准确率大幅提升,带动了一波产业热潮。对语音识别未来发展,各位大咖也有一些精彩论点。 

语音识别

科大讯飞研究院副院长——王士进

王士进表示,语音识别是人机交互里很重要的模块,从PC时代到现在的移动互联时代,人机交互由鼠标键盘走向智能手机、Pad等的多点触摸。到了智能硬件时代,交互则更加多元,不仅有触摸,还有基于语音、视觉的交互。原本是以机器为中心的人机交互,逐渐走向以人为中心的自然交互。

他认为,在将来万物互联的浪潮下,以语音为主,键盘、触摸、视觉、手势为辅的交互时代很快会到来。

提到传统的语音交互,王士进列举了几个缺点:***,交互距离要近;第二,发音必须标准;第三,环境必须安静;第四,人机不能持续对话。

科大讯飞在2015年提出AIUI,旨在解决上述问题同时期望在人工智能时代提供一种智能的人机交互界面。AIUI提供远场唤醒和识别降噪方案,兼容全国近17种方言,可以进行全双工交互和基于业务场景的多轮对话,同时结合讯飞超脑的认知智能使得机器进行更智能的交互。

AIUI实现了软硬一体化、云端一体化、技术服务一体化,通过三个一体化提供人机智能交互整体解决方案,使得用户可以快速切换到新的业务场景。

在提到基于AIUI交互技术的一些商业化尝试时,王士进列举了几种:

在交流方面,科大讯飞在05年推出了听见智能会议这款产品。一般来说,会议场景的同传准确率为80%左右,而智能会议转写准确率则能达到90%以上,之后,其在医疗和司法系统进行了应用。另外,科大讯飞还推出了便携翻译机,易于随身携带,方便远程实时交流。

在电视方面,最早的电视是用数字加上下左右按键控制仅有的十几个台,而现在的智能电视后台对接海量资源,通过讯飞智能电视助手可以进行方便的语音交互,节省时间。

在汽车方面,由于人在驾驶时候手不能离开方向盘,故把语音引入代替手进行交互会方便许多。实际上相比其他应用场景,语音识别由于汽车场景的噪音更强,面临更大挑战,而科大讯飞也在基于车载的语音识别做了许多优化,更在宝马、奔驰、通用举行的全球车载语音识别比赛取得***名,有效的支撑了车载场景的交互。

在机器人方面,机器人与人的语音交互满足自然交互、个性化服务以及基于业务场景的整合服务,可以方便的任意打断,在理解用户的需求下进行精准的内容推荐和服务。

语音识别和自然语言理解都是基于统计和概率体系,所以商业化过程建议选择人受到一定限制(如车载)或者很难做***正确(如会议同传)的场景,然后随着技术的进一步成熟,可以进入到更多的场景。

***,王士进总结道,“语音识别和人机交互技术在进行技术优化的同时更要结合应用场景,最终可使得技术完善,产业更好的发展。”

百度语音技术部声学技术负责人——李先刚

提到这些年对手机百度语音搜索的不断优化过程,李先刚认为要做好这样一个产品,先要收集相关数据,然后将语音识别应用推广到相关产品线上供用户使用,用户使用后反馈回来数据形成完整链条,最终达到非常***的状态。

他把输入法在语音识别中的作用表述为:输入法这一场景对语音识别性能提升有非常大的帮助。

而今年,百度在语音技术方面的进展包括基于GramCTC的端对端语音识别系统以及端对端说话人识别技术。

基于CTC的端对端语音识别系统是目前主流的工业系统,在2015年底,百度实现了CTC端对端语音识别系统的上线。而今年,百度进一步提出了GramCTC算法。

主流的说话人识别技术使用经典的DNN-IVECTOR技术,其框架基于统计模型,并将DNN引入此框架去学习。

可以看到的是,语音识别已走向大数据和端对端的道路,百度也将把说话人识别技术向此发展,进一步提升相关性能。

李先刚表示,人脸识别与说话人识别有技术共性,二者之间的差异仅仅只是人脸识别对象可以是固定尺寸的图片,而语音的时长会有很多变化。因此,百度说话人识别技术借鉴了目前人脸识别***的方法——度量学习,搭建了端对端度量学习的说话人识别系统。百度内部的实验显示,基于端对端的说话人技术显著提升了说话人识别的性能。

从商业化的角度分析语音识别,可将其应用分为两个维度,***个是近场和远场,第二个是人配合机器说话和人对人说话的不同说话风格。经过这样划分会发现很多语音场景其实是处在不同的语音象限里面,目前业界所做的近场人对机器说话的识别准确率可达90%以上,但另外几个场景所做不尽人意。

在李先刚看来,随着语音技术的推进,辅之商业化情景必将推动产品和技术的发展。

搜狗语音交互技术中心研发总监——陈伟

从2012年到现在,随着数据和算法的提升,搜狗的语音识别的识别错误率是逐年下降的。陈伟分享了一组数据:到目前为止,搜狗输入法每天的语音识别请求量高达2亿次,每天产生语料达到18万小时。

陈伟表示,搜狗在2016年发布知音引擎,对外输出完整的语音交互解决方案,也一直在探索语音识别和交互的不同场景和经验。语音识别可以更好提升输入、记录、交流的效率,其可分为听写和转写,听写更多要求实时性,转写则面向客服数据,不要求实时。另外,语音识别技术面向不同客户,除了直接提供给消费者,还有一些公司、企业如法院、医院等,语音识别的应用场合则更多是在演讲、直播、语音分析中。

语音识别不是一个单独的技术,其需要同其他技术进行融合,比如机器同传、语音交互,未来的产品将会是技术与技术的组合,产品与产品的组合。

对如何做出一款好的语音交互产品,陈伟认为首先是要重视场景和知识。只有技术(ASR、NLU等)与具体应用场景比如车载、智能家具、可穿设备结合在一起,才能得到稳定的产品。另外,仅仅有技术是不够的,还需要技术创新。在得到良好的使用体验之后用户基数会扩大,带来更多数据,这些累积的数据也是推动技术提升的关键。只有有了产品的迭代、有了真实的数据才能更好的分析出用户需求,更好的推动产品发展。

他表示,技术与产品缺一不可。

“语音交互以技术为驱动,加之好的运算力带来大量数据,以此进行迭代,不断通过技术和产品的耦合得到更好的产品。”

思必驰CMO——龙梦竹

“目前的语音产品识别率再高,也只是作为一个参考。”

龙梦竹提到,在识别率的数字背后,诸如降噪、远场、回声消除及声源定位等也需要关注。

那这几个词在整个语音技术里面有什么作用呢?

其可以影响识别率和准确性以及是判断语音交互产品是否实用的重要方向。

目前,各个公司做的都是端到端的,非配合的私人交互系统,在这整个系统里基本分为三个层面:从感知、到认知、到抽象思维的智能。

首先从感知的方向,要保障机器能够听得清,在克服环境、降噪的方面有很大挑战的。以思必驰为例,其依靠强大的数据库,已经把错词率降低到了7.19%,比业界普遍的10%有了非常大的效率提升。

另外,听清以后需要让机器快速反应。常常会有客户好奇“你们的产品是本地还是云端?”实际上,现在业界包括思必驰所做的都是本地+云端,一些简单的唤醒词、指令可能会放在本地。思必驰目前的本地识别指令***支持三千条,当然,***支持数目和产品的硬件配置、系统是相关的。而更多的需要交流的,需要机器思考的部分放到云端。

***,机器能够听清并且能够快速反应了,反应出来的效果如何?这个效果用专业术语可以称为TTS,TTS的优劣很大程度会决定产品体验的优劣。许多人理解的TTS可能是明星的合成音,而这些合成音不能适用于所有场景。

目前业界提出的97%、98%、99%的识别率这只是单独针对语音识别而言,在不同的领域、场景下,针对不同业务方向的语音识别和语意理解其实是有层次不齐的,这个图显示了在家庭和车载环境下不同的准确率。

龙梦竹谈到,无论在哪个领域做语音交互技术,都必须要满足几个要求:

***要满足用户刚需;

第二不一定是高频使用,但在某一场景能让用户形成依赖性;

第三,语音技术背后一定要有第三方的内容和服务作支持,因为它只是一种交互手段;

“我们一再强调的是,语音只是一个交互的手段,而不是一种功能。”现在的语音还没有达到全国人民普及的程度,但未来一定会实现。而这一手段,其背后第三方的内容和服务是比语音本身更重要的东西。

***,交互体验一定要好。

语音识别 人工智能
上一篇:你可能正在制造一个人工智能,而你却不知道 下一篇:AI+IoT:五个对智能物联网强烈刚需的工业(含工业4.0)
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

人工智能如何帮助痴呆症患者更独立地生活

在越来越多的人患有老年痴呆症,以技术为支撑人类照顾者和改善患者生活质量是当今的一种方式。特别是,我们希望使用技术来帮助痴呆症患者尽可能独立地生活。

美刻吃瓜 ·  1天前
人工智能、5G应用不再停留在“纸上蓝图” 数字经济发展提速

10月20-22日,《财经》新媒体记者在第六届世界互联网大会上了解到,与往年不同的是,经过几年的沉淀,互联网企业不再停留于“纸上蓝图”阶段,人工智能、5G、物联网等新业态的多场景应用正在加速落地。

军事哥谈 ·  1天前
【大咖来了 第2期】快狗打车智能化演进之路 精选

快狗打车高级经理胡显波分享的《快狗打车智能化演进之路》,回放链接:http://aix.51cto.com/activity/10010.html?dk=wz

胡显波 ·  1天前
AI破译千年文物铭文能力超人类 正确率比人类高30%

随着科技不断进步,人工智能AI似乎也在各方面不断超越人类。近日,AI又在考古再一次胜过了人类。

佚名 ·  1天前
手把手教你解决90%的NLP问题

利用机器学习方法来理解和利用文本,从最简单的到state-of-the-art,由浅入深,循序渐进。

Emmanuel Ameisen ·  1天前
【大咖·来了 第3期】海量日志分析与智能运维 精选

日志易 CEO 陈军分享的《海量日志分析与智能运维》,回放链接:http://aix.51cto.com/activity/10011.html?dk=wz

summer ·  1天前
如何解决机器学习树集成模型的解释性问题

前些天在同行交流群里,有个话题一直在群里热烈地讨论,那就是 如何解释机器学习模型 ,因为在风控领域,一个模型如果不能得到很好的解释一般都不会被通过的,在银行里会特别的常见,所以大多数同行都是会用 LR 来建模。

SAMshare ·  1天前
超过美日,中国人工智能为什么领先全球?

中国已成为世界第二大经济体,并正在经历改革的二次出发,从传统资源驱动型为主导的发展模式向自主创新、科技驱动为主导的新兴模式转型升级。人工智能则被视为推进转型升级的新动能。

中国企业报 ·  1天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载