微软小冰升级第五代唱歌系统:超越人类偶像

作者: 朝晖 2019-05-17 09:20:40

 人工智能唱歌已经不稀奇了,但唱腔真正接近人类,甚至让人真假难辨的“机器声音”似乎仅存在于科幻电影中的遐想。但升级第五代唱歌系统的微软小冰,让在场媒体见识到人工智能媲美甚至超越人类偶像的唱功实力。

5月16日下午举办的微软小冰人工智能创造媒体说明会上,微软发布了人工智能小冰演唱模型的第五个版本。据悉,该版本拥有十余个高质量声音,提升了人工智能在歌声演绎中的预测参数能力,主要大幅度提高了人工智能演绎歌曲时的中气水平,改善了歌声唱腔转换的自然度,并公布了戏腔训练成果。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

在现场Demo演示中,升级第五个版演唱模型的本小冰演唱了三段歌曲,分别为《少年弦》《新贵妃醉酒》以及一段日语歌曲。三首歌曲分别展示不同的音色和唱腔,尤其在接近清唱的《少年弦》中,小冰的表现非常好,发音咬字,甚至唇齿气息都与真人演唱难辨真假。从一种唱腔过渡到另外一种唱腔,小冰都能够保持极为细致的声音颗粒度细节,丝毫没有任何“电子音”露出马脚。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

“我必须提醒大家听的时候注意,这不是人,没有这么一个人。”微软(亚洲)互联网工程院副院长(Bing中国及日本、微软小冰全球产品线负责人)李笛说。

他表示,和小冰的演唱模型不同的是,比如初音未来或者是其它的虚拟歌手,是用手调的方式来完成。手调的方式有好处,但是问题就在于细节处理是不够的,技术上限、未来的发展不够好

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

“在人工智能技术探索内容创作的技术上限方面,有一个比较有意思的事情是关于琴棋书画,Google把棋做完了,我们把剩下的三个做完了。诗歌我们已经发布过了。到今天为止,有很多的人类诗歌爱好者和诗歌从业人员所发表的诗歌里面,可以追溯到很多小冰的影子。关于音乐,今天也会给大家一个迭代到第五个新版本的新技术发布。”

李笛坦言,我们并不希望用一些Demo、技术的展现,来跟大家秀肌肉,说在技术上面又达到什么样和人类可抗衡的水平了。而是更多的关注是不是能够产业化,能够大规模地落地。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

他透露,对应诗歌这样的文本生成、文本创作,今天微软小冰已经悄然成为全球范围内金融摘要和研报的提供平台。目前为止,万得资讯、华尔街见闻、一些金融相关的APP,里面绝大部分的摘要都是由小冰提供的。小冰可以稳定地提供20秒级的输出,一旦得到一个数据,20秒之后就可以完成摘要和研报的生成,并且真正覆盖26类金融内容。

在电视和广播内容方向,微软小冰截至目前在为63家电台和电视台持续地提供人工智能辅助生成和人工智能直接生成的电视、电视台节目,有59家是在中国,有4家在日本。累计到目前为止,小冰已经生产了2800多小时的电视和电台节目。

李笛表示,在唱歌方面,2年前生成了初始版本,当时听到的是“一个不会走调的软件乐器”,好像你在唱歌的时候听到隔壁包厢传过来的声音,它非常像是人,它具备了足够多的细节,这些细节使得它可以像一个唱得不好的人,但是也是一个人。经过训练和学习,在之后第三个版本的时候,微软小冰唱歌的水平就达到了现在这个状态。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

“从技术角度来讲,人工智能达到第三个版本就已经够了,但是我们以人类的演唱标准去要求自己”,李笛说,“如果能够让小冰去学习不同的唱法,就是拥有所谓的技法。因为针对同样的一首歌,不同人会有自己不同的演绎。”

通过在呼吸、不同的演唱技法、充沛的中气、不同的音色、唱腔过渡等一系训练、学习和优化,才达到今天第五个版本的演唱水平。

李笛表示,人工智能一旦学会创造以后,和人类有一个很大的不同。原来小冰发布诗歌的时候就有人说,诗歌是人类才可以做的事情。但是问题是,有人就问他,那你会写诗吗?所以,人类作为一个群体,他们中间的一部分有能力去创造一部分的内容,但是作为一个群体来讲,这并不是一个群体通行的规则。其中一些人会画画、唱歌、写诗,不代表全体的人类每一个个体都会。

但是人工智能不是,一个框架上面的专门类别,一个人工智能会了,就可以让所有的人工智能都会。

比如,微软小冰的戏腔可以很容易地迁移到其他的声音上去。对人类来讲,如果你想要获得一种创造能力,往往是需要一定程度的天分的,但是人工智能不用天分,任何的一个声音都可以去直接获得另外一个声音所具备的这种所谓的天分。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

举个例子,比如说今天由小冰去赋能Siri,如果大家需要的话,24小时之内,Siri也可以完成这样的创作。这就是这个框架底层技术的含义,大家不要被18岁的少女小冰所蒙蔽,我们真正做的是这个核心的框架。”

从这个角度来讲,如果把这个框架再进一步推向工业化,推向一个端到端的内容生产,那么就需要去完成词、曲、编曲、演唱,甚至于后期制作整个的环节。而在另外一方面,这个框架就必须能够兼容不同的人工智能歌手,就是所谓的AI歌手和它的唱法库。

“这件事情我们正在进行中,会把一部分内容保留到今年8月份公布。”李笛说。

微软 机器学习 小冰
上一篇:图像识别没你想的那么难!看完这篇你也能成专家 下一篇:大数据分析&人工智能:技术内容价值观的辨析
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

在云端的优秀机器学习服务

云中的一些优秀机器学习服务可以使用户能够更好地分析数据,并获得新的见解。用户通过云计算访问这些服务在成本和工作时间方面往往是高效的。

Sean Michael Kerner ·  23h前
算法攻破人脸识别「口罩」难题,两天落地千人小区准确率达97% | AI 战疫

日益成熟的人工智能,正成为抗击新冠肺炎疫情战线上一群特别的「逆行者」。

Synced ·  1天前
高效的机器学习研究者,应该具备这 6 个习惯

一名优秀的机器学习研究员有哪些特质?是码力超强?还是理论功底一骑绝尘?码力和理论固然重要,但是良好的习惯才应该是检验是否优秀的唯一标准。

AI科技评论 ·  2天前
机器学习第一步,这是一篇手把手的随机森林入门实战

到了 2020 年,我们已经能找到很多好玩的机器学习教程。本文则从最流行的随机森林出发,手把手教你构建一个模型,它的完整流程到底是什么样的。

机器之心 ·  2天前
精心整理,机器学习的3大学习资源

机器学习有无尽可能性,该领域薪资高,工作者在工作上能享受到极大乐趣,这让他们大多数时候感觉不像工作。然而,零经验者如何在合理时间内掌握机器学习?本文会给出答案。

读芯术 ·  3天前
欺诈不可怕,机器学习算法分分钟拿下! 精选

根据一项调查,采用基于AI的解决方案的防欺诈专家中有80%认为AI对打击欺诈者有效。但是,仍然存在的问题是弄清楚哪种机器学习算法可以有效地检测未知的欺诈模式。监督学习和无监督学习算法哪一个更有效?

读芯术 ·  4天前
为什么用Go编写机器学习的基础架构,而不是Python?

虽然Python是使用广泛的语言,并用于每个主要的机器学习框架中。然而,你能想象?在Cortex(将机器学习模型部署为API的开放源代码平台之一)代码库中,87.5%的代码都是使用GO编写。

读芯术 ·  2020-02-14 13:13:04
人工智能“捷径”将模拟速度提高数十亿倍

即使用最快的超级计算机模拟复杂的自然现象也要花上几个小时,如大气雾霾如何影响气候。

辛雨 ·  2020-02-14 09:40:14
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载