微软全球技术院士、首席语音科学家黄学东近日做客微软播客节目,聊了聊在语音和语言技术取得的几个里程碑式的突破,解释了掌握语音识别、翻译和对话将如何让机器从 “感知 AI” 进化到 “认知 AI”,更接近真正的人类智能。

 “语音和语言技术是真正镶在人工智能皇冠上的明珠。”

 已经在语音和语言技术领域耕耘了30年,取得多个突破性进展的微软全球技术院士 (Technical Fellow)、首席语音科学家黄学东先生如此说道。

 近日,黄学东做客微软播客节目,聊了聊他和团队在语音和语言技术取得的几个里程碑式的突破。

 黄学东解释了掌握语音识别、翻译和对话将如何让机器从 “感知 AI” 进化到 “认知 AI”,更接近真正的人类智能。

 此外,黄学东也谈到他如何走上语音研究之路,以及他在清华大学和在微软的人生历程。

 采访音频:

 语音和语言将推动人工智能的进化

 主持人:黄学东先生,欢迎来到微软播客。

 黄学东:谢谢。

 主持人:您是微软语音和语言组的 Technical Fellow,负责领导微软的语音工作。我们将在稍后深入讨论这些,但首先,作为公司的首席语音科学家,请概括地告诉我们你的工作内容是什么,以及为什么要做这些。你早上起来的动力是什么?

 黄学东:我们所做的就是确保我们拥有最好的语音和语言技术,可以用于各种各样的场景。我们有一整个团队在做这件事情,因为对话不仅是人们最自然的交流方式,而且这是 AI 最大的挑战。我们尝试真正地推动这个领域的突破,在我们的云服务 Azure Services 上提供出色的服务,并确保我们能够让微软内部和微软之外的客户满意。如果你想厘清整个事情,主要有三个方面。

 首先,我们有能力去真正提高语音识别的准确性,去驱动语音合成的自然性,以及确保机器翻译的准确性,例如从英语翻译成汉语或法语或德语。因此,这背后有很多科学,要确保准确性,自然度,延迟时间,这些技术都是世界级的。这是一方面。

 第二方面是,我们不仅提供技术,我们还通过 Azure 提供服务。从 Office 到 Windows, Cortana,它们都依赖于相同的云服务。我们也有边缘设备,比如我们的语音设备 SDK。我们想要确保在边缘和云端的语音技术都是以现代的方式提供的,即云平台和嵌入式平台。这是第二方面:平台是现代化的。

 第三个方面,是向客户表达我们的爱。因为我们在世界各地都有广泛的客户,我们想让消费者满意,并确保使用我们的语音翻译的客户体验是一流的。

 主持人:是的。

 黄学东:这就是我实际上在做的三件关键事情:提升 AI 能力,使我们在云端和边缘设备的平台实现现代化,以及爱我们的客户。

 主持人:嗯,所以你们有很多团队在这些小组中工作,来解决这些核心问题。

 黄学东:是的。我们在世界各地都有团队。并且,这些团队的多样性是很惊人的,因为我们正在努力解决的是语言障碍。因此,我们在中国有团队,在德国、以色列、印度和美国都有团队。我们的工作是全球范围的,尝试努力去解决这些语言挑战。

 主持人:首先,我想引用你的话为我们今天的谈话做铺垫。你说:“语音和语言是人工智能皇冠上的明珠。” 请为我们解释一下吧。

 黄学东:嗯。我们可以从人类进化的范畴来思考。在某个时期,语言诞生了。这加速了人类的进化。你可以想想这个星球上所有的动物,你知道的,有些动物跑得比人类快,有些动物视力比人类好……

 主持人:有些动物的牙齿也更锋利。

 黄学东:…… 尤其是在夜里。

 主持人:动物更强大。

 黄学东:是的。事实上,动物的听觉和嗅觉都比人类更好,但只有我们人类才拥有语言。有了语言,我们能够更好地组织,能够用科幻的术语去描述,能够自我组织,能够编写宪法。所以,是语音和语言使我们有别于其他动物。对人工智能来说,语音和语言将推动人工智能的进化,就像它推动了人类的进化一样。这就是为什么说它是镶在人工智能皇冠上的明珠。

 主持人:原来如此。

 黄学东:而且它还很坚硬,难以破坏。

 主持人:是的。关于这个话题有一个哲学讨论,但它引出了一些有趣的问题。假如你在机器语言方面取得了很大的成功,那么,这些机器是什么?

 黄学东:让我们发挥一点想象力……

 比如说,我们假设计算机可以理解 300 种语言,能够流利地交流和对话。但我还从没遇到过一个会说 300 种语言的人。机器不仅能够用 300 种语言流畅地交流和对话,还能够领会、理解、学习和推理,真正完成所有学科的博士课程。这种知识的获取、推理,是任何人的个人能力所不能及的。当那一刻到来的时候,你可以想象 AI 将会有多么聪明。

 主持人:这是你想象出来的吗?

 黄学东:是的。我认为这个世界会变得更美好。就在几周前,我去了日本,我手机上安装了微软翻译软件。我能真正地与不会说中文或英文的日本人交流了。这已经实现了。微软翻译可以说我不会讲的语言,帮助我在日本时更有效率。

 主持人:我完全同意。但想到这个机器,我就有点害怕。

 黄学东:但是你要知道,智能有两个层次。第一个层次是真正的感知智能(perceptive intelligence)。就是看、听、闻的能力。更高层次的是认知智能(cognitive intelligence)。就是推理、学习和获得知识的能力。我们今天所取得的 AI 的突破,大多是在感知层面的,如语音识别、语音合成、计算机视觉等。但是高层次的推理和知识获取,即认知能力,AI 离人类的水平还很远。

 主持人:是的。

 黄学东:我对翻译感到兴奋,因为它实际上是介于感知智能和认知智能之间的。我们能够真正地在感知智能上取得成功,并扩展到认知智能。这是一个相当漫长的过程。

 主持人:是的。

 黄学东:我不知道我们什么时候才能达到那个里程碑。但那一天会到来。这只是时间问题。可能需要 50 年的时间,但我认为这是会发生的。

 微软语音技术研究之路

 主持人:我们会在下回的播客中讨论这个里程碑,因为今天已经有好几个里程碑要讨论。但首先,我想回顾一下历史。你已经在微软研究院工作了很长时间了,在 Rick Rashid 成立微软研究院的时候,语音组是第一批研究组织。根据 MSR 的传说,这个组织的目标是 “让语音成为主流”。请给我们简单介绍一下微软研究院的语音历史。这项研究是如何从早期的 “不主流”、“敢于冒险,但离成功还很远” 发展到今天几乎应用在微软所有产品中?

 黄学东:在加入微软研究院之前,我在匹兹堡的 CMU 任教。Rick Rashid 当时是 CMU 的教授。我当时是初级教员。所以,我当时主要是在 CMU 做关于语音的研究。微软伸出了橄榄枝,他们想成立一个语音组。所以,实际上,我在 1993 年元旦假期后的第一天就搬了家,从匹兹堡飞往西雅图,开始了在微软的旅程,并从未改变。这就是微软语音的开端。我们是一个研究团队,致力于为开发者带来语音技术。

 主持人:所以,不是没有实用价值的研究……

 黄学东:不是的。因此,我们从 CMU 获得了技术许可。我们就是这样起步的。我们非常感谢 CMU 在这一领域的开创×××。虽然是研究团队,但我们发布了第一个语音 API,叫 SAPI,用在 Windows 95 上。作为一个研究团队,我们对此感到非常自豪,因为通常研究团队只是做基础研究。我们不仅做了基础研究,还继续挑战极限,继续提高识别精度,我们还与 Windows 合作,把这项技术带给了 Windows 开发者。SAPI 是业界第一个基于 Windows 的语音 API。

 主持人:哇。沈阳湿疣医院:http://mobile.024sdxb.com/

 黄学东:那真是一段很长的经历。后来,我最终离开了研究部门,加入了产品部门。跟我一起转入产品部门的是一个优秀的微软语音研究组。这是我在微软 27 年的经历。我在 2004 年之后就不再做语音了,在我们发布了语音服务器之后,我开始做了很多不同的事情,包括孵化研究。

 在萨蒂亚?纳德拉 (Satya Nadella) 负责 Bing 的时候,我还做过 Bing 的架构师。然后,在 Harry 负责研究和技术团队时,我帮助孵化了一系列人工智能项目,包括 GPU 集群、Project Philly、深度学习工具包 CNTK 等基础项目。当然,还有语音研究,还包括其他高端解决方案。

 大约三年前,我有幸回来负责语音和语言组。我们基本上整合了所有在语音和翻译方面的资源,这就是我的经历。精彩的 27 年。

 主持人:语音和语言组在属于哪个部门?沈阳治疗性病医院:http://mobile.sdjk024.com/

 黄学东:正如我说的,我们在研究部门和产品部门之间来回了很多次。现在,我们属于云和人工智能部门。这是一个产品团队。我们是云服务的一部分,向全公司和全行业提供语音和翻译服务。我们也有语音和对话研究。他们更像一个研究团队。沈阳治疗性病的医院:http://mobile.syxbsd.com/

 主持人:是的。沈阳看湿疣哪家医院好:http://mobile.024ljyy.com/

 黄学东:那个组里全是研究人员。正如 Rick 说的,技术成果转化是一项需要各部门配合的事情。我们不仅是各部门紧密配合,我们已经成了一个整体。这是一个非常令人兴奋的团队,有一群非常有才华、非常有创新精神的人。沈阳性病医院×××:http://mobile.xasgyy.cn/

 主持人:所以,在研究模式上还是很有前瞻性的……

 黄学东:不仅是有前瞻性,而且是有充分依据的。我们必须脚踏实地提供服务,也要站到未来的高度,去定义人们需要的和人们想要的解决方案是什么,即使现在这个解决方案尚不存在。

 三个里程碑:语音识别、机器翻译和对话问答

 主持人:让我们来谈谈你参与的一些研究里程碑。它们真的很有趣。你参与了三个领域:对话式语音识别、机器翻译和对话问答。让我们从语音识别开始。2016 年,你带领的团队在转写对话语音方面达到了人类水平的历史记录。请说说这是什么怎么一回事,是怎样做到的?

 黄学东:在 2016 年,我们在广泛使用的 Switchboard Conversational Transcription 任务上达到了媲美人类的水平。这项任务在研究界和工业界可能已经有十多年了。2017 年,我们重新刷新了这个里程碑,不是和一个人比较,而是和一群人比较,转写同样的任务。所以,我认为 2017 年是一个历史性的时刻。转写相同任务,微软语音堆栈的表现优于所有四个团队的总和。最初我向我们的研究小组提出挑战时,没有人认为能做到。但令人惊讶的是,当我们有了信念,有了资源,有了专注的焦点,奇迹真的发生了,只花了不到两年的时间。所以,对于团队,对于科学,对于技术来说,那确实是一个美妙的时刻。那是我个人职业生涯中实现的第一个达到与媲美人类水平的里程碑。