人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络

作者: 趣说人工智能 2018-07-11 10:46:05

人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络简介:我们的数字时代见证了对灵活,高质量肖像操作的需求飙升,不仅来自智能手机应用,还来自摄影行业,电子商务推广,电影制作等。人像设备也得到了广泛的研究[34] ,5,8,18,1,33]在计算机视觉和计算机图形学术界。以前的方法专门用于添加化妆[23,6],执行风格转移[9,14,24,12],年龄进展[42]和表达操作[1,39]等等。然而,这些方法是针对特定任务而定制的,并且不能被传输以执行连续和一般的多模态肖像操作。

人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络

最近,生成对抗网络在合成和图像翻译中已经证明了引人注目的效果[15,38,4,35,44,13],其中[44,40]提出了不成对图像翻译的循环一致性。在本文中,我们通过利用额外的面部地标信息将这个想法扩展到条件设置,这些信息能够捕获复杂的表达变化。通过这种简单而直接的修改产生的好处包括:首先,循环映射可以有效地防止多对一映射[44,45],也称为模式崩溃。在面部/姿势操纵的情况下,周期一致性也引起身份保持和双向操纵,而先前的方法[1]假设中性面开始或单向[26,29],因此在同一域中操纵。其次,不同纹理或样式的面部图像被认为是不同的模态,当前的地标检测器不适用于那些程式化的图像。通过我们的设计,我们可以对来自多个域的样本进行配对,并在每对域之间进行转换,从而可以间接地在风格化的肖像上进行地标提取。一旦收集了相应的数据,我们的框架也可以扩展到化妆/卸妆,老化操作等。考虑到许多面部操作任务缺乏groundtruth数据,我们利用[14]的结果生成伪目标以学习同时表达和模态操作,但它可以被任何所需的目标域替换。

人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络贡献:然而,实现高质量的肖像操作仍然存在两个主要挑战。我们建议学习单个发生器tt,如[7]。但StarGAN [7]处理离散操作,并且在具有不可移除伪像的高分辨率图像上失败。为了合成照片般逼真的质量图像(512x512),我们提出了受[37,41]启发的多层次平面监督,其中不同分辨率的合成图像在被馈送到多级鉴别器之前被传播和组合。其次,为了避免在不同域之间的平移过程中纹理不一致和伪影,我们将Gram矩阵[9]作为纹理距离的度量集成到我们的模型中,因为它是不同的,并且可以使用反向传播进行端到端的训练。图1显示了我们模型的结果。

广泛的评估在数量和质量上都表明,我们的方法在执行高质量的肖像操作方面与***进的生成模型相当或更优(参见第4.2节)。我们的模型是双向的,它避免了从中性面或固定域开始的需要。此功能还可确保稳定的培训,身份保护,并可轻松扩展到其他所需的域操作。在下一节中,我们将审查相关的工作,并指出差异。有关PortraitGAN的详细信息,请参见第3节。我们在第4节中评估了我们的方法,并在第5节中总结了论文。

人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络

人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络图像翻译:我们的工作可以分为图像翻译和生成对抗网络,其目的是学习映射tt:诱导与目标域无法区分的分布,通过对抗训练一对发电机tt和鉴别器。例如,Isola等人。 [13]将图像作为在配对样本上训练的一般图像到图像翻译的条件。后来,Zhu et.al [44]通过引入循环一致性损失来扩展[13],以避免匹配训练对的需要。此外,它还减轻了训练生成对抗网络(也称为模式崩溃)期间的多对一映射。受此启发,我们将这种损失整合到我们的模型中,以便在不同领域之间保持身份。

启发我们设计的另一项开创性工作是Star-GAN [7],其中目标面部属性被编码为单热矢量。在StarGAN中,每个属性都被视为一个不同的域,用于区分这些属性的辅助分类对于监督培训过程至关重要。与StarGAN不同,我们的目标是在像素空间中执行无法使用离散标签枚举的连续编辑。这隐含地暗示了平滑且连续的潜在空间,其中该空间中的每个点编码数据中有意义的变化轴。我们将不同的样式形式视为本文中的域,并可互换地使用两个单词。从这个意义上讲,美化/去美化,衰老/年轻,胡须/无胡须等应用也可以纳入我们的一般框架。我们将第4节中针对Cycle-GAN [44]和StarGAN [7]的方法进行了比较,并在第3节中详细说明了我们的设计。

姿势图像生成:我们知道在人物图像生成的人重新识别任务中使用姿势作为条件的作品[36,20,31,29]。例如[26]以通道方式连接单热姿势特征图来控制类似于[30]的姿势生成,其中鸟类的关键点和分割掩模用于处理鸟类的位置和姿势。为了合成更合理的人体姿势,Siarohin et.al [31]开发了可变形的跳跃连接,并计算了一组仿射变换来逼近关节变形。这些作品与我们的作品有一些相似之处,因为面部地标和人体骨骼都可以被视为一种姿势表现形式。但是,所有这些工作都涉及原始域中的操作,并且不保留身份。此外,这些工作中生成的结果是低分辨率,而我们的模型可以成功生成具有照片般逼真质量的512x512分辨率。

人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络

人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络整体框架:问题公式给定不同模态的域1,2,3,... n,我们的目标是学习单个通用映射函数tt:Xi→Xj,∀i,j∈{1,2,3,... n}(1)通过连续的形状编辑将A中的A从域A转换为B(图1)。等式1还暗示tt在给定期望条件下是双向的。我们使用面部界标j R1×H×W来表示域j中的面部表情。面部表情被表示为具有N = 68的2D关键点的矢量,其中每个点ui =(xi,yi)是j中的第i个像素位置。我们使用属性向量c = [c1,c2,c3,... cn]来表示目标域。形式上,我们的输入/输出是形式(IA,LB,cB)/(IB,LA,cA)∈R(3 + 1 + n)×H×W的元组。模型体系结构我们的方法的总体流程很简单,如图2所示,由三个主要部分组成:(1)生成器tt(,c),其将域c1中的输入面呈现给给定条件面部标记的另一域c2中的同一人。 tt是双向的,并在前进和后退循环中重复使用。(2)一组不同分辨率的鉴别器Di,用于区分生成的样本和实际的样本。 我们采用PatchGAN [44]而不是将I映射到表示“真实”或“假”的单个标量,而PatchGAN [44]使用完全的convnet输出矩阵,其中每个元素Mi,j表示重叠补丁ij为真实的概率。 如果我们追溯到原始图像,每个输出都有一个70 70的感受野。 (3)考虑到身份保存和纹理的损失函数不同域之间的一致性。 在以下小节中,我们将单独详细说明每个模块,然后将它们组合在一起构建PortraitGAN。

人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络数据集训练和验证:Radboud Faces数据库[19]包含4,824个图像,共有67个参与者,每个图像执行8个规范的情感表达:愤怒,厌恶,恐惧,快乐,悲伤,惊讶,蔑视和中立。 iCV多情感面部表情数据集[25]专为微情感识别(5184x3456分辨率)而设计,其中包括31,250种表情,表现出50种不同的情绪。 测试:我们从Youtube(缩写为HRY Dataset)收集20个高分辨率视频,其中包含提供语音或地址进行测试的人员。 对于上述数据集,我们使用dlib [17]进行面部标志性提取,并使用神经样式传递算法[14]来生成多种模态的肖像。 请注意,在测试期间,groundtruths仅用于评估目的。

人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络结论:高分辨率下的同时形状和多模态肖像操作并非易事。在这篇文章中,我们提出的PortraitGAN通过结合额外的面部地标和属性向量作为条件来推动周期一致性的极限。对于双向映射,我们只使用一个类似于[7]的生成器,但具有不同的训练方案。这使我们能够以连续的方式同时执行多模态操作。我们使用表达式插值和不同的样式模式验证我们的方法。为了获得更好的图像质量,我们采用多层次对抗监督,在培训过程中提供更强的指导,将不同尺度的生成图像组合并传播到不同尺度的鉴别器。我们还利用纹理损失来强化模态之间的纹理一致性。然而,由于许多面部操纵任务中缺少数据,因此不呈现超出样式转移的模态操作。尽管如此,我们提出的框架向交互式操作迈出了一步,一旦获得相应的数据,可以扩展到更多模态的操纵,我们将其留作未来的工作。

人工智能 计算机视觉 面部属性
上一篇:构建深度神经网络,我有20条「不成熟」的小建议 下一篇:开源人工智能根据面部表情特征深度学习应用于生成图像标题
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

大数据与AI如何助力食品饮料行业发展?

数字化几乎颠覆了每一个行业,从金融服务到医疗保健,而食品和饮料行业也不例外。从历史上看,风味特点、潮流和新的食品主要归功于厨师和产品开发人员。而在将一个创意转化成产品并推向市场之前,可能需要花费几个月甚至是几年的时间。

至顶网 ·  15h前
研究公司统计了9大AI领域,分析了世界各国AI法律举措

世界各国政府正在迅速采取行动,以确保现有的法律、法规以及框架,能够在人工智能技术变革中继续起效,应对由新浪潮带来的种种新挑战。

佚名 ·  16h前
护卫中小学生安全,如今已离不开机器人!

近年来,生活水平的提升、二胎政策的放宽都推动了全国儿童人口的增多,但同时也使得遭遇安全事故的儿童比例大幅上升。在此情况下,儿童安全问题不容忽视。

林中易木 ·  23h前
华为全场景 AI 计算框架MindSpore开源!

华为Mindspore AI计算框架正式开源,标志着华为向自己的AI梦想,迈出了新的一步,而深度学习开源领域,又迎来了一位重量级的玩家。

佚名 ·  1天前
人工智能会扮演好医生的角色吗?

人工智能技术的发展日新月异。它不仅在娱乐和通信领域发挥作用,而且在未来的健康和生活领域做出重要贡献。在一些国家,人工智能技术已经融入强大的分析工具,以帮助医院的医生诊断癌症和其他疾病。但是人工智能会取代医生的角色吗?

风车云马 ·  1天前
人工智能辅助下社交媒体营销人员的十大戒律

如果我告诉你,在社交媒体中使用人工智能工具(并正确地使用)能够增强每名用户的消费者旅程,从而留下更多的用户,且留存时间更长,会怎么样呢?

读芯术 ·  1天前
2020~2030:人工智能将占据主导地位的十年

AntWorks预测,在未来十年中,很难找到一个没有利用AI来智能地自动化业务流程的行业。在所有行业中都有无数的AI用例,这是我们对2020年及以后的预测。

CDA数据分析师 ·  2天前
AI人工智能在2020年的7个发展趋势

随着对其他AI应用程序需求的增长,企业将需要投资有助于其加快数据科学流程的技术。然而:实施和优化机器学习模型只是数据科学挑战的一部分。

CDA数据分析师 ·  3天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载