【大咖来了 第6期】面向交互的人工智能

作者: 曹洪伟 2019-11-21 20:45:31

【51CTO.com原创稿件】本期出席《大咖来了》直播栏目的嘉宾是百度DuerOS首席布道师曹洪伟,进行了主题为《面向交互的人工智能》的分享,主要讲解了语音交互中用到的AI技术,如ASR、NLU、NLG、TTS等,以及基于这些细分技术构建的面向对话式的人工智能操作系统——DuerOS,通过本次分享大家可以基本上掌握如何在智能语音交互平台上开发应用,进一步体会智能语音如何服务我们的生活。

语音使人机交互更加便捷

什么是交互?交互是指 A 和 B 之间的一系列动作和行为,语出《京氏易传·震》:“震分阴阳,交互用事”。

那什么是人机交互呢?人机交互是一门研究系统与用户之间的互动关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互重点研究用户与计算机之间的接口,既包括人类与计算机的交互方式,也包括设计技术,使人类以新颖的方式与计算机交互。人机交互与人机界面是两个有着紧密联系而又不尽相同的概念。

 在计算机时代,人机交互的发展历程如下图所示:

面向交互的人工智能

从键盘+鼠标到使用触摸屏,再到语音交互,人机交互在不断地演进,由面向机器的人机交互,演变为面向用户自身的交互。语音是非常低成本的沟通手段和工具,为我们带来非常大的便利。

语音交互的优势在于:其一是速度,每分钟可以说120到150个字。其二是释放双手,做饭时通过语音可以完成一些期望做的事。其三是直觉性,语言是人类的天赋,也是人类交际沟通的自然手段。其四是同理心,语音中包含了语气、音量、语调和语速,这些特征传达了大量的信息。

语音交互离不开人工智能技术,在语音交互中所涉及的人工智能技术如下图所示:

面向交互的人工智能

如今,智能语音交互正在为我们服务,背后有一整套完整的技术和流程,从语音唤醒到自动语音识别,再到自然语言理解,最终通过自然语言生成以及语音合成技术形成反馈,整套流程背后又有很多细分的AI技术在支持,如对话管理、深度学习,DNN、CNN、NLP、TTS等。

面对涉及如此之广的AI技术, 我们怎样才能应用到工作和生活之中呢?这和我们有了计算机之后,如何使用计算机是类似的。计算机上的操作系统及其API为程序员们打开了计算机世界的大门。面向智能交互的AI系统, 我们同样需要一个类似的操作系统,才能方便而且高效地构建我们的人工智能交互应用。

面向语音交互的DuerOS操作系统

百度的DuerOS是一个面向语音交互的对话式人工智能操作系统,在包含了语音交互的整套流程的同时,还提供开放能力平台,如SDK、工具、编程接口和设备等,如下图所示:

面向交互的人工智能

DuerOS操作系统有三个层面,分别是智能设备开放平台(应用层)、对话核心系统(核心层)和技能开放平台(能力层)。下面我们进一步从基于DuerOS的智能语音设备、智能语音设备的工作原理、智能语音交互的交互流程和智能语音应用的开发流程等方面了解DuerOS操作系统。

了解一个操作系统主要是看有哪些语音设备,基于这些设备才能进行具体的应用开放,DuerOS的智能语音设备有很多,部分的小度系列产品如下图:

面向交互的人工智能

DuerOS广泛适用于音箱、电视、冰箱、手机、机器人、车载、可穿戴、玩具等多种场景及设备,这些智能语音设备的工作原理是怎样的呢?

面向交互的人工智能

相比传统设备,智能语音设备是面向交互的,通过语音、触屏进行输入,利用TTS、麦克风、信号处理等手段,把本地能力转移到云端,再利用云端ASR、TTS、NLU、NLG等具体的AI技术实现智能语音,最后把业务引擎、业务资源和技能服务进行融合,这样就可以通过语音完成一系列服务,如下图所示。

面向交互的人工智能

技能开放平台包含很多层次,如底层基础能力、BOT-SDK、配置服务、协议开放、平台开放、周边工具等。下面介绍一下智能语音交互应用的交互流程。

面向交互的人工智能

这里,我们以询问天气意图为例,当用户发出语音指令后,智能音箱本地做用户唤醒词识别,然后通过音箱把语音流传到DuerOS平台,DuerOS平台进行语音识别、语义理解、发送结构化数据给技能服务器。技能服务器处理请求,向DuerOS平台返回文本或可视化的结果,DuerOS平台收到后,TTS服务器处理返回的文本,将播报流发送给智能音箱,如果是有屏音箱的话,也可将可视化结果在设备上进行展示。

那么,我们如何在DuerOS开发一个智能语音交互的应用呢?

智能语音交互应用的开发流程一般分为六个步骤,分别是注册、创建技能、建立交互模型、编写代码部署、调试与验证和技能上线商用,如下,为具体步骤图解。

第一步,访问https://dueros.baidu.com/dbp, 注册成为DuerOS的开发者。

面向交互的人工智能

第二步,创建技能,和我们在Android或iOS上创建应用是类似的。

面向交互的人工智能

进入技能控制台,选择“从头开始”创建自定义技能。技能名称是2~50个字符,调用名称是2~15个字符。调用名称是技能服务的入口,打开+调用名称。不建议使用生僻词汇、中英文混合及数字与汉字混合。技能创建后会生成一个技能ID,是技能服务在DuerOS系统中的唯一标识。

第三步,建立交互模型,这可能是智能语音应用与App,小程序,web之类应用的最大的不同点。

面向交互的人工智能

用户询问的核心在这里称为意图,建立交互模型就是创建多种用户意图的过程。意图的标识就相当于具体事件的编号。交互模型的建立实际上是一种面向接口的设计方式,明确的交互的意图就是在一定程度上确定了技能服务的功能。

第四步,编写代码并部署。

面向交互的人工智能

DuerOS 提供了高效安全的百度云服务免费使用,开放平台的在线编辑器提供了对Python 和Node 的语言支持,编码主要是对交互模型中的意图进行匹配和处理。在线编辑器中的代码将自动部署在百度云的CFC,CFC是百度云FaaS无服务架构的具体应用。当然,技能代码的编写还可以通过Java,PHP等其他语言进行编写,也可以部署在自己的服务器或者其他云服务上。

第五步,对技能服务进行测试与验证。

面向交互的人工智能

DuerOS开放平台提供了两种测试方式:模拟器和真机调试。在真机调试时,要保证技能开发账号和设备登录账号一致,对设备说“开启技能调试模式”即开启了“技能调试模式”功能,需要注意的是同一时间仅支持一个技能测试。

第六部,技能应用的上线商用。

面向交互的人工智能

类比来看,发布上线与App在安卓市场或者苹果商店上的上线发布过程是类似的。至此,我们可以基于DuerOS的开放平台开发符合用户需求的各种智能语音交互应用。同时, DuerOS 还提供了零编程的智能语音交互应用实现方式。应用的种类丰富多彩,可以为我们的生活带来更多的便利和乐趣!

基于智能语音交互服务的一天

从早上通过音箱叫你起床,通过搭载DuerOS的车机导航出发上班,用小度助手去安排当日工作,工作中小度助手可以提醒休息,孩子可以用搭载DuerOS的设备打电话、看电视和听故事。

随着交互形式的变化,交互技术发展到了今天的智能语音时代,在智能语音服务中可以直接应用到各种人工智能技术,可以不用深入关注具体的NLU、NLG等具体AI技术,只要使用基于DuerOS这样对话式的AI开放平台,就可以完成面向语音交互的各种服务。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

大咖来了 面向交互 人工智能
上一篇:面向AI开发公司的几大机器学习框架(2020年版) 下一篇:虚拟女友亦能摸!新研究登上Nature,头号玩家场景实现
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

MIT提出Liquid机器学习系统,可像液体一样适应动态变化

麻省理工学院(MIT)的研究者开发出了一种新型的神经网络,其不仅能在训练阶段学习,而且还能持续不断地适应。

机器之心 ·  2021-02-21 15:47:47
规划智慧城市时,别忘了无障碍通行

要想成为一个智慧城市甚至一个智慧世界,虽然可能需要时间和有针对性的规划,但我们必须以人为本。

蒙光伟 ·  2021-02-21 10:26:41
2021关于人工智能的五大趋势

数字化变革,比过去10年更多,这主要是由于远程工作的规模,以及企业迅速部署了必要的技术,尤其是与网络安全相关的技术。那,2021关于人工智能的五大趋势会是如何的呢?

Lichu ·  2021-02-21 10:21:01
使数据中心更智能:人工智能如何发挥作用?

随着数据成为维持几乎所有业务运营以获取洞察力和业务成果的先决条件,数据中心正处于这种数字化转型的关键。

Cassie ·  2021-02-21 10:14:59
IBM拟出售Watson Health后,AI医疗还能不能碰

医疗服务仍然是一块商业上尚未被完全发掘的市场,看病难/看病贵、医疗资源紧缺、医疗资源不平均等痛点问题长期存在,对应的市场空间理应是巨大的。而Watson Health作为IBM曾寄予厚望的业务方向,为何要在此时萌生退意?它的故事给业界带来哪些启发?眼下的AI医疗市场,究竟是一副什么样的局面呢?

物联传媒 ·  2021-02-21 08:41:16
抛弃归一化,深度学习模型准确率却达到了前所未有的水平

我们知道,在传递给机器学习模型的数据中,我们需要对数据进行归一化(normalization)处理。

机器之心 ·  2021-02-20 21:09:12
华人博士生首次尝试用两个Transformer构建一个GAN

最近,CV 研究者对 transformer 产生了极大的兴趣并取得了不少突破。这表明,transformer 有可能成为计算机视觉任务(如分类、检测和分割)的强大通用模型。

Yifan Jiang ·  2021-02-20 21:04:53
无监督训练用堆叠自编码器是否落伍?ML博士对比了8个自编码器

柏林工业大学深度学习方向博士生 Tilman Krokotsch 在多项任务中对比了 8 种自编码器的性能。

Tilman Krokotsch ·  2021-02-20 20:57:16
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载