微软小冰升级第五代唱歌系统:超越人类偶像

作者: 朝晖 2019-05-17 09:20:40

 人工智能唱歌已经不稀奇了,但唱腔真正接近人类,甚至让人真假难辨的“机器声音”似乎仅存在于科幻电影中的遐想。但升级第五代唱歌系统的微软小冰,让在场媒体见识到人工智能媲美甚至超越人类偶像的唱功实力。

5月16日下午举办的微软小冰人工智能创造媒体说明会上,微软发布了人工智能小冰演唱模型的第五个版本。据悉,该版本拥有十余个高质量声音,提升了人工智能在歌声演绎中的预测参数能力,主要大幅度提高了人工智能演绎歌曲时的中气水平,改善了歌声唱腔转换的自然度,并公布了戏腔训练成果。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

在现场Demo演示中,升级第五个版演唱模型的本小冰演唱了三段歌曲,分别为《少年弦》《新贵妃醉酒》以及一段日语歌曲。三首歌曲分别展示不同的音色和唱腔,尤其在接近清唱的《少年弦》中,小冰的表现非常好,发音咬字,甚至唇齿气息都与真人演唱难辨真假。从一种唱腔过渡到另外一种唱腔,小冰都能够保持极为细致的声音颗粒度细节,丝毫没有任何“电子音”露出马脚。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

“我必须提醒大家听的时候注意,这不是人,没有这么一个人。”微软(亚洲)互联网工程院副院长(Bing中国及日本、微软小冰全球产品线负责人)李笛说。

他表示,和小冰的演唱模型不同的是,比如初音未来或者是其它的虚拟歌手,是用手调的方式来完成。手调的方式有好处,但是问题就在于细节处理是不够的,技术上限、未来的发展不够好

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

“在人工智能技术探索内容创作的技术上限方面,有一个比较有意思的事情是关于琴棋书画,Google把棋做完了,我们把剩下的三个做完了。诗歌我们已经发布过了。到今天为止,有很多的人类诗歌爱好者和诗歌从业人员所发表的诗歌里面,可以追溯到很多小冰的影子。关于音乐,今天也会给大家一个迭代到第五个新版本的新技术发布。”

李笛坦言,我们并不希望用一些Demo、技术的展现,来跟大家秀肌肉,说在技术上面又达到什么样和人类可抗衡的水平了。而是更多的关注是不是能够产业化,能够大规模地落地。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

他透露,对应诗歌这样的文本生成、文本创作,今天微软小冰已经悄然成为全球范围内金融摘要和研报的提供平台。目前为止,万得资讯、华尔街见闻、一些金融相关的APP,里面绝大部分的摘要都是由小冰提供的。小冰可以稳定地提供20秒级的输出,一旦得到一个数据,20秒之后就可以完成摘要和研报的生成,并且真正覆盖26类金融内容。

在电视和广播内容方向,微软小冰截至目前在为63家电台和电视台持续地提供人工智能辅助生成和人工智能直接生成的电视、电视台节目,有59家是在中国,有4家在日本。累计到目前为止,小冰已经生产了2800多小时的电视和电台节目。

李笛表示,在唱歌方面,2年前生成了初始版本,当时听到的是“一个不会走调的软件乐器”,好像你在唱歌的时候听到隔壁包厢传过来的声音,它非常像是人,它具备了足够多的细节,这些细节使得它可以像一个唱得不好的人,但是也是一个人。经过训练和学习,在之后第三个版本的时候,微软小冰唱歌的水平就达到了现在这个状态。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

“从技术角度来讲,人工智能达到第三个版本就已经够了,但是我们以人类的演唱标准去要求自己”,李笛说,“如果能够让小冰去学习不同的唱法,就是拥有所谓的技法。因为针对同样的一首歌,不同人会有自己不同的演绎。”

通过在呼吸、不同的演唱技法、充沛的中气、不同的音色、唱腔过渡等一系训练、学习和优化,才达到今天第五个版本的演唱水平。

李笛表示,人工智能一旦学会创造以后,和人类有一个很大的不同。原来小冰发布诗歌的时候就有人说,诗歌是人类才可以做的事情。但是问题是,有人就问他,那你会写诗吗?所以,人类作为一个群体,他们中间的一部分有能力去创造一部分的内容,但是作为一个群体来讲,这并不是一个群体通行的规则。其中一些人会画画、唱歌、写诗,不代表全体的人类每一个个体都会。

但是人工智能不是,一个框架上面的专门类别,一个人工智能会了,就可以让所有的人工智能都会。

比如,微软小冰的戏腔可以很容易地迁移到其他的声音上去。对人类来讲,如果你想要获得一种创造能力,往往是需要一定程度的天分的,但是人工智能不用天分,任何的一个声音都可以去直接获得另外一个声音所具备的这种所谓的天分。

开口脆!微软小冰升级第五代唱歌系统:超越人类偶像

举个例子,比如说今天由小冰去赋能Siri,如果大家需要的话,24小时之内,Siri也可以完成这样的创作。这就是这个框架底层技术的含义,大家不要被18岁的少女小冰所蒙蔽,我们真正做的是这个核心的框架。”

从这个角度来讲,如果把这个框架再进一步推向工业化,推向一个端到端的内容生产,那么就需要去完成词、曲、编曲、演唱,甚至于后期制作整个的环节。而在另外一方面,这个框架就必须能够兼容不同的人工智能歌手,就是所谓的AI歌手和它的唱法库。

“这件事情我们正在进行中,会把一部分内容保留到今年8月份公布。”李笛说。

微软 机器学习 小冰
上一篇:图像识别没你想的那么难!看完这篇你也能成专家 下一篇:大数据分析&人工智能:技术内容价值观的辨析
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

刷脸取件被小学生“破解”!丰巢紧急下线 精选

近日,#小学生发现刷脸取件bug#的话题引发关注!这是真的吗?都市快报《好奇实验室》进行了验证。

好奇实验室 ·  1天前
4 分钟!OpenAI 的机器手学会单手解魔方了,完全自学无需编程 精选

OpenAI 的机器手学会单手解魔方了,而且还原一个三阶魔方全程只花了 4 分钟,其灵巧程度让人自叹不如。

佚名 ·  2天前
MIT新研究表明机器学习不能标记假新闻

麻省理工学院研究人员发表的两篇新论文显示,当前的机器学习模型还不能完成区分虚假新闻报道的任务。在不同的研究人员表明计算机可以令人信服地生成虚构新闻故事而无需太多人为监督之后,一些专家希望可以训练基于相同机器学习的系统来检测此类新闻。

佚名 ·  2天前
高位截瘫患者重新行走:靠意念指挥外骨骼,法国脑机接口新突破 精选

依靠介入头部的 2 个传感器,法国里昂的一名瘫痪男子 Thibault 实现了操控外骨骼装备来助力行走。

孙滔 ·  3天前
2008 年预测 2020 年生活方式:基本都实现了

美国皮尤研究中心曾在 2008 年预测 2020 年的生活方式,目前来看,该研究的预测基本已经实现。而对于未来 10 年,也就是 2030 年左右人们的生活,在 2017 年底的世界经济论坛上,800 多名信息和通讯技术领域的技术高管和专家给出了如下预测。

佚名 ·  3天前
机器学习的正则化是什么意思?

正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;所以说,使用正则化的目的就是为了防止过拟合。

佚名 ·  3天前
机器学习的正则化是什么意思?

正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;所以说,使用正则化的目的就是为了防止过拟合。

佚名 ·  3天前
为什么我的CV模型不好用?没想到原因竟如此简单……

机器学习专家 Adam Geitgey 近日发布了一篇文章探讨了这一简单却又让很多人头痛的问题,并分享了他为解决这一问题编写的自动图像旋转程序。

机器之心 ·  3天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载