基于线性网络的语音合成说话人自适应

作者: 阿里巴巴授权发布 2018-04-23 16:27:27

【51CTO.com原创稿件】 说话人自适应算法利用说话人少量语料来建立说话人自适应语音合成系统,该系统能够合成令人满意的语音。在本文中,我们提出了基于线性网络的语音合成说话人自适应算法。该算法对每个说话人学习特定的线性网络,从而获得属于目标说话人的声学模型。通过该算法,使用200句目标说话人的自适应语料训练的说话人自适应系统能够获得和使用1000句训练的说话人相关系统相近的合成效果。

研究背景

对于一个目标说话人,如果他(她)拥有充足的训练数据,那么我们便可以建立一个说话人相关的声学模型,基于该声学模型的系统称之为说话人相关的语音合成系统。利用该系统,我们能够合成和目标说话人声音很像的语音。但是,大多数时候,目标说话人没有充足的数据,这使得合成出来的语音效果不太理想。利用说话人自适应算法,能够基于比较有限的数据来获得较好的语音合成系统,该类算法节省了大量的录音、转录和检查工作,使得建立新的声音的代价变得很小。

本文中,我们提出了基于线性网络(Linear Network, LN)的语音合成说话人自适应算法。该算法通过在源说话人声学模型的层间插入线性网络,然后利用目标说话人的数据来更新该线性网络和神经网络的输出层,从而能够获得属于目标说话人的声学模型。另外,一种基于低秩分解(low-rank plus diagonal,LRPD)的模型压缩算法被应用于线性网络。实验发现,当数据量较少的时候,通过LRPD来移除一些冗余的参数,从而能够使得系统合成的声音更加稳定。

算法描述

本文中,源说话人声学模型是一个基于多任务(multi-task)DNN-BLSTM的声学模型,见Fig. 1左侧。声学模型的输入为语音学特征,输出为声学特征。声学特征包括梅尔倒谱系数等。实验证明,在声学模型的底层使用深层神经网络(Deep Neural Network,DNN)可以获得更好的底层特征,并且收敛速度上相比于不使用DNN更快。在输出层上,不同的声学特征使用各自的输出层,它们仅共享声学模型的隐层。

基于线性网络的自适应算法首先被提出于语音识别领域,它的系统结构见Fig. 1右侧。根据线性网络插入的位置不同,它可以被分为线性输入网络(Linear Input Network,LIN)、线性隐层网络(Linear Hidden Network,LHN)和线性输出网络(Linear Output Network,LON)。

实验

本文提出的算法,在中文数据集上进行实验,该数据集包含3个说话人,每个说话人有5000句话,时长约5h。数据集中语音的采样率为16k,特征提取中的窗长和窗移分别为25ms和5ms。分别用A-male、B- female和C-female来命名这三个说话人。本实验中,源说话人声学模型训练过程所使用的句子数为5000。为了对比不同句子数目下的合成效果,目标说话人的自适应数据集对应的句子数从50到1000不等。在自适应数据集之外,我们取200句话作为开发集,取20句话作为测试集(用于主观打分)。为了分析性别对自适应效果的影响,进行了三对源说话人-目标说话人之间的实验:女生-女生、男生-女生和女生-男生。另外,使用客观度量和主观测听两种方式来衡量模型的性能。客观度量主要包括:Mel-Cepstral Distortion (MCD)、root mean squared error (RMSE) of F0、unvoiced/voiced (U/V) prediction errors和开发集的MSE。主观测听主要是对系统合成的声音样本进行自然度和相似度上的打分——mean opinion score (MOS) 。

以女生-女生(C-female – B-female)为例,Fig. 3显示了不同自适应句子数目和客观度量之间的关系曲线图。其中,SD表示说话人相关系统,OL表示只更新源说话人声学模型输出层的说话人自适应系统,OL+Full-LN和OL+LRPD-LN分别表示基于Full-LN和LRPD-LN的说话人自适应系统。根据Fig. 3,随着训练/自适应句子数的增加,所有系统间的客观度量趋于相近。对比SD和另外三个自适应系统,自适应系统的性能在相同句子数目下要更优。另外,OL+LRPD-LN和OL+Full-LN相比于OL均出现性能上的跳变(提升),说明只更新输出层而不对其他层进行更新不能够得到较好的自适应效果。同时,当自适应句子数较少的时候,OL+Full-LN在客观性能上要差于OL+LRPD-LN,这是因为OL+Full-LN引入太多的参数量,出现过拟合问题。反之,在句子数多的时候OL+Full-LN在客观性能上要优于OL+LRPD-LN,此时OL+LRPD-LN由于参数量少,出现欠拟合问题。

Fig. 4上对比了不同系统间的自然度和相似度。随着句子数的减少,SD系统的性能出现急剧下降,OL+LRPD-LN相比于SD和OL+Full-LN要更加稳定。与客观度量一致,在相同句子数下,OL+Full-LN和OL+LRPD-LN在性能上要优于SD。并且,OL+Full-LN和OL+LRPD-LN在200句话的性能和SD在1000句话时的性能相近。与客观度量不同,OL+LRPD-LN在500句以下的时候性能上就优于OL+Full-LN。这是因为过拟合导致合成出来的声音不稳定(虽然客观度量更优)声音的可懂度下降导致的。由此,我们依然可以得到相同的结论:当自适应句子数较少的时候,过拟合使得OL+Full-LN的性能变差。

结论

本文中,基于线性网络的说话人自适应算法被应用于语音合成领域,基于LRPD的模型压缩算法能够提高声音的稳定性。通过三对不同的源说话人-目标说话人的实验,我们发现,当自适应句子数目非常少的时候,LRPD能够提升声音的稳定性。另外,通过提出的算法,使用200句目标说话人的训练语料训练的说话人自适应系统能够获得和使用1000句训练的说话人相关系统相近的效果。

【本月排行***0】

  1. 张真:AIOps六大技术难点与宜信运维的重大变革
  2. 新炬网络程永新:插上AI翅膀 运维平台焕发出崭新生命力
  3. 从SIEM&AI到SIEM@AI AI构建下一代企业安全大脑
  4. 基于线性网络的语音合成说话人自适应
  5. 转转公司架构算法部孙玄:AI下的微服务架构

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

线性网络 语音合成 自适应
上一篇:3月份Github上最热门的数据科学和机器学习项目 下一篇:AI = 神经网络?这8个技术就不是!
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

用于语音合成的深度前馈序列记忆网络

我们提出了一种基于深度前馈序列记忆网络的语音合成系统。该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时,模型大小只有后者的四分之一,且合成速度是后者的四倍,非常适合于对内存占用和计算效率非常敏感的端上产品环境。

阿里巴巴授权发布 ·  2018-03-25 20:51:07
德媒:欧盟拟立法限制滥用人工智能

据德国《法兰克福汇报》网站4月13日报道,人工智能的胜利前进已不可阻挡。新冠疫情尤其让人们关注到这种拥有自我学习能力的系统对医疗体系组织工作的价值。

参考消息 ·  12h前
国内首个!北京拟推进自动驾驶商业化,年内将实现真无人驾驶

乘自动驾驶出租车要付费,无人配送车街上跑,路测拿掉安全员,无人驾驶车上高速……这些即将在北京实现。

南方都市报 ·  13h前
前沿洞察丨无人机送货不迷路的原因竟在这里!

本期前沿洞察为大家带来这些技术:用微观交叉定位,让无人机送货不再找路难;能暴露行动轨迹的智能袜子;基于两束交叉光触发的化学反应实现微米级高精度3D打印......一起来看看吧!

望潮科技 ·  13h前
2021年AI智能摄像机带来的新市场

大流行除了给全球经济带来巨大影响之外,也加速了越来越多的先进技术走向成熟应用,如人工智能(AI)和机器学习(ML),技术时代的到来往往伴随着人类的迫切需求。

蒙光伟 ·  23h前
OpenAI CEO Sam Altman:AI革命即将到来,我们需要新的系统

我们正处于这场技术变革的开端,我们拥有创造未来的宝贵机会。而这不是简单地解决目前的社会和政治问题,它必须为完全不同的社会而设计。

Sam Altman ·  1天前
谈谈基于深度学习的目标检测网络为什么会误检,以及如何优化目标检测的误检问题

在训练人脸检测网络时,一般都会做数据增强,为图像模拟不同姿态、不同光照等复杂情况,这就有可能产生过亮的人脸图像,“过亮”的人脸看起来就像发光的灯泡一样。

刘冲 ·  1天前
值得思考:197亿美金,微软2021年的AI转型之路

4月12日,微软宣布将以每股56美元的价格收购语音识别巨头Nuance,出价达到了197亿美元。

东方林语 ·  1天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载