一文概览基于深度学习的监督语音分离

作者: 刘晓坤 2017-10-25 19:05:18

一文概览基于深度学习的监督语音分离

摘要:语音分离是指将目标语音从背景干扰中分离出来的任务。传统上,语音分离被当作一个信号处理问题。最近出现一种新方法把语音分离作为监督学习问题处理,从训练数据中学习语音、说话人和背景噪声的判别模式(discriminative pattern)。过去十年内已经有很多监督分离算法被提出,特别是最近提出的基于深度学习的监督语音分离有很多进步之处,在分离任务中的表现有很大的提高。这篇论文对最近几年基于深度学习的监督语音分离的研究进行了概述。我们首先介绍语音分离的背景和监督分离的形成。然后我们将讨论监督分离中的三个主要组成部分:学习机器、训练目标和声学特征。本文对监督语音分离的概述主要着眼于分离算法,我们将回顾单声道方法,包括语音增强(语音-非语音分离)、说话人分离(多人谈话分离)、语音混响削减(speech dereverberation),以及麦克风阵列技术(multi-microphone technique)。本文还讨论了泛化这一重要问题。本文从历史视角叙述监督语音分离的技术发展过程。此外,我们还讨论了很多概念上的东西,比如目标源的构成。

1. 引言

语音分离的目标是把目标语音从背景干扰中分离出来。在信号处理中,语音分离属于很基本的任务类型,应用范围很广泛,包括听力假体、移动通信、鲁棒的自动语音以及说话人识别。人类听觉系统能轻易地将一个人的声音和另一个人的分离开来。即使在鸡尾酒会那样的声音环境中,我们似乎也能毫不费力地在其他人的说话声和环境噪声的包围中听到一个人的说话内容。因此语音分离问题通常也被叫做「鸡尾酒会问题」(cocktail party problem),该术语由 Cherry 在他 1953 年那篇著名论文中提出 [22]。

人类最重要的交流方式就是语言,对我们来说,从背景干扰中分离出语音是至关重要的。感兴趣的演讲或者目标谈话经常被其它来源的多余噪声和表面反射产生的混响所干扰。虽然人类能轻易地分离语音,但事实证明,在这项基本任务中,构建一个能够媲美人类听觉系统的自动化系统是很有挑战性的。在 Cherry 1953 年出版的书 [23] 中,他观察到:「目前为止没有任何机器能解决『鸡尾酒会问题』。」很不幸的是,虽然本文提到的近期研究进展已经开始解决这个问题,但在我们这个领域中,他的结论一直保持了 60 多年的正确性。

语音分离非常重要,已经在信号处理领域被研究了几十年。根据传感器或麦克风的数量,分离方法可分为单声道方法(单个麦克风)和阵列方法(多个麦克风)。单声道分离的两个传统方法是语音增强 [95] 和计算听觉场景分析(CASA)[140]。语音增强方法分析语音和噪声的全部数据,然后经过带噪语音的噪声估计,进而对清晰语音进行估计 [32][95]。最简单以及应用最广泛的增强方法是频谱相减法(spectral subtraction)[10],其中估计噪声的功率谱会从带噪语音中删去。为了估计背景噪声,语音增强技术一般假定背景噪音是稳定的,也就是说,其频谱特性不会随时间变化,或者至少比语音稳定一些。CASA 建立在听觉场景分析的感知理论基础上 [12],利用聚类约束(grouping cue)如基音频率(pitch)和起音(onset)。例如,tandem 算法通过交换 pitch 估计和基于 pitch 的聚类进行语音分离 [65]。

由两个或更多的麦克风组成的阵列使用不同的语音分离方法。波束成形,或者说空间滤波器,通过恰当的阵列结构增强从特定的方向到达的信号,进而削减来自其它方向的干扰 [134][11][7][74]。最简单的波束成形是一种延迟-叠加技术,能将来自目标方向的多个麦克风的信号以相同的相位相加,并根据相差削减来自其它方向的信号。噪声的削减量取决于阵列的间隔、尺寸和结构,通常随着麦克风数量和阵列长度的增加,削减量也会增加。显然,当目标源和干扰源被共置,或者很靠近的时候,空间滤波器是无法应用的。此外,在回声场景中,波束成形的效用大幅降低,对声源方向的判定变得模糊不清。

一种最近提出的方法将语音分离当作一个监督学习问题。监督语音分离的最初形成受 CASA 中时频掩膜(time-frequency (T-F) masking)概念的启发 [98][140][138]。CASA 的主要目标是理想二值掩膜(ideal binary mask,IBM)[63],表示目标信号是否控制混合信号时频表示中的一个 T-F 单元。听力研究显示,理想二值掩膜能够显著提高正常听力者(NH)和听力受损者(HI)在嘈杂环境中的语音理解能力 [13][1][91][141]。以 IBM 作为计算目标,则语音分离变成了二值分类问题,这正是监督学习的一种基本形式。在这种情况下,IBM 被当做训练中的目标信号或目标函数。在测试中,学习机器的目的就是估计 IBM,这也是监督语音分离的***训练目标(参见 Sect. III)。

由于语音分离已经变成分类问题,因此数据驱动的方法在语音处理领域得到了广泛研究。在过去的十年内,通过运用大型训练数据和增加计算资源,监督语音分离大幅提高了***进性能 [17]。监督分离从深度学习的发展中受益良多,这也是本文的主题。监督语音分离算法可以大体上分为以下几个部分:学习机器、训练目标和声学特征。本文,我们首先回顾这三个部分。然后介绍代表性算法,包括单声道方法和基于阵列的算法。泛化作为监督语音分离的特有议题,也将在本文中进行讨论。

为避免混淆,我们需要厘清本文使用的几个相关术语。speech separation 或 speech segregation(语音分离)都指从背景干扰(可能包括非语音噪声、干扰语音,或者都有,以及室内混响)中分离目标语音的任务。此外,「鸡尾酒会问题」(cocktail party problem)也指语音分离(speech separation)。语音增强或去噪(speech enhancement or denoising)指语音和非语音噪声的分离。如果是多个说话人的语音分离问题,我们使用术语「多说话人分离」(speaker separation)。

本文的结构如下:首先回顾监督语音分离的三个主要方面,即学习机器、训练目标和特征(分别在第二、三、四章进行介绍)。第五章介绍单声道分离算法,第六章介绍基于阵列的算法。第七章是总结。

图 1. 对混合了 -5 dB SNR 工厂噪声的 TIMIT 音频数据使用不同训练目标图示。

图 2. 使用不同训练目标的训练结果比较。(a)STOI。(b)PESQ。分别用清晰语音混合信噪比为-5dB、0dB、5dB 的工厂噪声。可从 https://web.cse.ohio-state.edu/pnl/DNN_toolbox/的 Matlab toolbox 中获取这张图的结果和数据。

图 3. DNN 进行特征学习的图示,使用线性 SVM 对学得的特征进行 IBM 值估计 [147]。

图 4. 用于语音分离的二阶 DNN(two-stage DNN)的图示 [52]。

图 5. 语音增强中基于 DNN 的频谱映射方法图示 [161]。

图 6. 配置自动编码器以进行无监督调试的语音增强 DNN 架构 [182]。AE 堆叠在 DNN 的顶部作为纯度检测器,估计来自 DNN 的清晰语音。

图 7. 基于 LSTM 的语音分离系统的结构展示 [16]。

图 8. 前馈 DNN 和基于 LSTM 的 RNN 的 STOI 改进。(a)信噪比为-5dB 的经训练说话人的结果。(b)信噪比为-5dB 的未训练说话人的结果。

图 9. 基于频谱映射的语音混响削减 DNN 图示 [45]。

图 10. 语音混响削减的混响时间响应 DNN 结构图示(根据 [156] 重画)。

图 11. 基于 DNN 的两个说话人分离方法图示。

图 12. 听力正常者和听力受损者倾听混合干扰语句的目标语句并将目标语句从中分离出来时的平均清晰度得分和标准偏差 [151]。图中展示了四种不同目标-干扰比率的正确率百分比结果。

图 14. 双声道分离算法的结构图示 [171]。

图 15. 单声道掩膜估计的 MVDR 波束成形器 [34]。

深度学习 语音分离
上一篇:如何理解深度学习分布式训练中的large batch size与learning rate的关系? 下一篇:即将开放的无人便利店和无人超市隐藏了这7种黑科技
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

12个场景应用,百余种算法,AI是如何攻占经济学的?

在虚拟世界中模拟现实经济状况,想法设计更好的制度只是AI和经济学结合方式之一。其实深度强化学习在面临风险参数和不确定性不断增加的现实经济问题时,也可以提供更好的性能和更高的精度。

蒋宝尚 ·  3天前
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点

本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点。

佚名 ·  2020-05-21 14:50:37
用TFserving部署深度学习模型

本文介绍了TFserving部署线上推理服务,从模型的转换,部署启动和调用推理,欢迎交流,希望对你有帮助。

佚名 ·  2020-05-21 14:05:17
520开发者的情人节 飞桨全平台35项升级大礼“示AI”

5月20日,由深度学习技术及应用国家工程实验室与百度联合主办的“WAVE SUMMIT 2020”深度学习开发者峰会以线上形式召开。本届峰会,飞桨公布最新全景图,带来多达35项全新发布和重磅升级,不仅进一步升级核心框架、完善从开发训练到部署的全流程工业级极致体验、深化企业端服务,更着眼未来,引领布局前沿技术,首发量子机器学习开发工具“量桨”,以及蓄力AI人才培养和开发者生态,发布青少年AI科普教育“晨曦计划”、“星辰计划”开发者探索基金等。

佚名 ·  2020-05-20 14:07:06
百度CTO王海峰:飞桨深度学习平台是新基建的重要一环

5月20日,由深度学习技术及应用国家工程实验室与百度联合主办的“Wave Summit 2020”深度学习开发者峰会在线上召开。百度CTO王海峰在致辞中表示,时代契机为飞桨的发展提供了最好的机遇,作为中国首个开源开放、功能完备的产业级深度学习平台,飞桨将与产业紧密融合,与开发者并肩前行。

佚名 ·  2020-05-20 11:32:27
PyTorch官方教程大更新:增加标签索引,更加新手友好

PyTorch官方教程,现已大幅更新,不必再面对一整页教学文章茫然无措,可以想学哪里就精准点哪里了。

鱼羊 ·  2020-05-18 09:44:08
机器学习:使用批归一化有哪些缺点?

批归一化(Batch Normalization)是深度学习领域的重大突破之一,也是近年来研究人员讨论的热门话题之一。批归一化是一种被广泛采用的技术,能够使训练更快、更稳定,并已成为深度学习领域最具影响力的方法之一。然而,它仍然存在一些要注意的问题。

不靠谱的猫 ·  2020-05-18 08:42:13
深度度量学习的这十三年,难道是错付了吗?

近日,Facebook AI 和 Cornell Tech 的研究者在论文预印本平台 arXiv 上公布了最新研究论文,声称这十三年来深度度量学习领域的研究进展「实际上并不存在」。

机器之心 ·  2020-05-17 15:57:28
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载