让梦露和龙妈学着你说话,只需一张静态图和一个视频

作者: 十三 2020-04-28 10:32:37

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

想让名人学着你说话,怎么办?

很简单,只要一张名人的照片,配上你说话的视频,分分钟就能搞定。

来看下效果:

让梦露和龙妈学着你说话,只需一张静态图和一个视频 | 项目开源

无论你是挤眉弄眼,还是摇头晃脑,照片里的名人们都能跟你神同步

这就是来自意大利特伦托大学的一项研究:

利用一个一阶运动模型 (First Order Motion Model),静态图也能动起来,换脸也不在话下。

当然,这么有意思的项目,已经开源了!

一个川普在说话,一群史塔克也有话说

其实,这项研究早在数月前便已发表。

当时用的输入视频是川建国同志,静态照片用的是一组《冰与火之歌》史塔克家族及剧中其他人物图片。

效果是这样的:

让梦露和龙妈学着你说话,只需一张静态图和一个视频 | 项目开源

可以看到,无论川建国同志是眨眼、晃头,剧中的人物做到了神同步。

就连那张标志性的O型嘴,也“模仿”的惟妙惟肖。

而时隔几个月,这项技术又在Reddit爆火了起来。

让梦露和龙妈学着你说话,只需一张静态图和一个视频 | 项目开源

一个可能的原因是,这次输入的视频来自流行的短视频平台,也就是说我们自己录一段视频也能用。

加上效果的逼真、有趣,或许用不了多长时间,短视频内容平台可能就会推出这个功能了吧。

当然,这个模型的魔力不止于此。

输入一个模特换pose的视频,再配上多张静态服饰照片,就能批量输出动态展示服装的视频了。

让梦露和龙妈学着你说话,只需一张静态图和一个视频 | 项目开源

换脸,也是小菜一碟。

让梦露和龙妈学着你说话,只需一张静态图和一个视频 | 项目开源

不过,也要温馨提醒一句:慎用静态照片,不然出来的效果可能就不太像“阳间的东西”了……

一阶运动模型

在训练阶段,研究人员采用了大量的视频序列集合,包含相同类别的对象。模型通过结合视频中的单帧,和学习到的潜在运动表示,来训练重构视频。

在测试阶段,研究人员将模型应用于由源图像和驱动视频的每一帧组成的对,并执行源对象的图像动画。

模型的框架就如下图所示:

让梦露和龙妈学着你说话,只需一张静态图和一个视频 | 项目开源

框架主要由2部分构成:运动估计模块图像生成模块

运动估计模块的目的,是预测一个密集的运动场。研究人员假设存在一个抽象的参考框架,并且独立估计两个变换,分别是「从参考到源」和「从参考到驱动」。这样就能够独立处理源帧和驱动帧。

研究人员认为这个步骤是必要的,因为在测试时,模型会接收从不同视频中采样的源图像和驱动帧对,它们在视觉上可能非常不同。

在第一步中,研究人员从稀疏轨迹集近似这两种变换,通过使用以自监督方式学习的关键点来获得。利用局部仿射变换对每个关键点附近的运动进行建模。

在第二步中,密集运动网络结合局部近似得到密集运动场。除此之外,这个网络还输出遮挡的mask,指示哪些图像的驱动部分可以通过源图像的扭曲(warping)来重建,哪些部分应该被绘制(根据上下文推断)。

在第三步中,生成模块按照驱动视频中,提供的源对象移动的图像进行渲染。此处,研究人员使用一个生成器网络,根据密集的运动对源图像进行扭曲,并对源图像中被遮挡的图像部分进行着色。

最后,这个模型已经在GitHub上开源,我们在“传送门”中已经奉上地址链接。

快去试试吧~

传送门

GitHub项目地址:
https://github.com/AliaksandrSiarohin/first-order-model

论文地址:
https://arxiv.org/pdf/2003.00196.pdf

AI 视频 开源
上一篇:突发!影像AI公司汇医慧影被黑客入侵,新冠研究成果被公开出售 下一篇:生成“猫狗版”特朗普,造假脸工具StarGANv2被玩坏,算法已开源
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

和AI去码一样神奇?AI上色是黑科技还是逗你玩

在图片处理领域这块,AI 刷的存在感越来越多。早前笔者就介绍过 AI 无损放大图片、AI 去除马赛克、AI 自动给线稿上色之类的玩法,现在,又有人给笔者推荐了一个 AI 黑科技——黑白照片一键变彩色。

Aimo ·  4天前
为什么AI没能让人类失业?

我们听了这么久有关「AI取代设计师」、「AI取代写作者」、「AI取代画家」、「AI取代司机」……的论调。然而时至今日,我们发现实际上,目前还没有一个职业「真正」被取代。

佚名 ·  4天前
AI又一次打败了人类:仅凭一张自拍照片辨别个人性格

一项新研究表明,人工智能(AI)可在“仅凭一张自拍照片辨别个人性格”这件事上再次打败人类。与人类相比,机器能够更好地识别一种特征,通过分析人物面孔来确定物种不同的性格特质。

佚名 ·  2020-05-27 10:48:34
化身阿凡达,国外小哥开源 AI 实时变脸工具 Avatarify

疫情期间,很多人都在用 Zoom 和 Skype 等软件进行视频会议。国外一位开发小哥觉得这样开会太无聊,于是基于 first-order-model 开发了一个能够把别人的照片套在自己脸上的“变脸”软件 Avatarify,并将其开源。

OSC神秘老司机 ·  2020-05-27 09:56:41
或比人眼更清晰!世界首个3D人工眼球问世:数百万人重见光明

据媒体报道,香港科技大学的研究人员发表在《自然》杂志上的一项新研究表明,设计出世界上第一个3D人造眼球,或将比人眼成像更清晰。如果一切进展顺林,预计五年内可以让数百万人重见光明。

斌斌 ·  2020-05-25 10:16:14
全球首个 3D 版 AI 合成主播亮相,还将参与两会报道,网友:主持人要失业了

AI 合成主播已不稀奇,但能走动、做手势、换装的 3D 版 AI 主播,「新小微」是全球第一个。

肖漫 ·  2020-05-22 09:05:32
华为突破封锁,对标谷歌Dropout专利,开源自研算法Disout

美国持续封锁,华为的技术自研,已经深入到了AI底层算法层面上,并开始将研究成果面向业界开源。

乾明 金磊 ·  2020-05-20 10:25:43
【图解机器学习】人人都能懂的算法原理

本文整理了一篇博客文章的内容,读者可根据这些图理解看似高深的机器学习算法。

佚名 ·  2020-05-19 14:00:09
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载