如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法

作者: 丰色 2021-05-25 15:07:15

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

 根据文字生成图片,AI早就会了。

而如今,和以往的“写实派”不同,AI要开始进军“抽象派”艺术了!

话不多说,下面是AI画的一些输入文字为“丛林中的老虎”的作品:

如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法

AI的“艺术细胞”你get到了吗?这离真正的抽象派大师画作还有多远?

而这次AI生成的图像,之所以与此前我们见到的GAN模型的风格大不一样,是DeepMind使用了一种新算法。

该算法最终允许用户输入一串文本,AI就能对这个字符串做出创造性的反应,输出一个解释该字符串的艺术作品。

再比如输入“云”,生成如下作品:

如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法

输入“一张脸”,“尖叫”,“一只猫”,“一个笑脸”,“着火的房子”,“一个人走路”,“丛林中的老虎”,“洞穴壁画”:

如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法

……

如此不同凡响的新技能,有什么技术创新吗?

神经视觉语法系统与双重编码器

总的来说,DeepMind的这个算法与使用GAN生成图像有3种不同

首先,此算法的图像是“进化”(evolve)而来,而不是使用反向传播直接生成。

使用进化搜索 (evolutionary-search),可以生成一个与众不同的“美学输出”,也允许人为进行更多输出控制。

其次,该算法不直接进化图像,而是进化一种生成图像的视觉语法。这才能生成有趣的结构化图像。

最后,该算法使用了一个预训练的多模态“评判器” (critic),它接受了网上大量图片和说明文字(captions)的训练。这个算法“理解”文字的视觉意义的能力很重要。

如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法

下面就来详细说一下用于演化出图像的神经视觉语法系统和用来评估图像合适度的图像文本双重编码器“评判器”。

神经语法系统采用了分层结构,可大大扩展核心神经发生器的功能。

它将用户输入的字符串输入到顶级的LSTM中,LSTM(长短期记忆网络)可为每个笔划(stroke)指定一个中间输入字符串(intermediate input string )。

这个中间输入字符串的作用与原始输入字符串非常相似。然后这个中间字符串又被输入到底层的的LSTM以输出最终图像的笔划描述。如下图所示。

如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法

具体细节如,中间向量的第二个位置决定了编码的笔划是不透明的还是透明的。

第三个位置决定是使用顶层指定的位置还是中间层指定的位置来确定笔划的原点。

第四个位置确定笔划中要产生的行数。

……

为了发挥评判的作用,需要一种评分机制,给图像与句子的相似程度评分。

为此,他们选择了Frome的双编码器方法,该方法最近在大量网络数据集上获得了巨大成功。

该双编码器模型由两个分别对文本和图像进行操作的编码器组成。该团队在ALIGN(A Large ImaGe and Noisy-text)数据集上训练它。

视觉编码器基于NF-Net-F0模型,以224x224分辨率的RGB图像作为输入;文本编码器是一个80M参数因果转换器(causal Transformer)。

该文本编码器保留了单词的顺序以及大小写之间的区别,会将“Jungle in the Tiger”和“a tiger in the jungle”生成不一样的图像。

此外,得益于进化搜索,可使用修剪程序来确定有助于图像得分(合适度)的关键标记。在整个进化过程中,也可以删除多余的标记,“调教”出尽量满意的图像。下图为“一颗苹果树”的标记修剪。

如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法

可继续改进:初始画布不必空白

那这样一种技术有什么实际用处呢?

团队介绍到,它可以用于辅助艺术创作、发明新的标记制作方法或者将其生成过程作用于3D模型等。

而且画布的背景初始条件不必空白,没准可以从照片或现有图像开始,在每次迭代中用不同的文本来调节,最终让图像一点点演变成层次更丰富的作品!

当然,他们的算法也有一些需要改进的地方,所生成的图像有时让人感到惊喜,而有时却看起来平平无奇甚至混乱,由于过拟合产生了越来越抽象的作品。

如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法

而在允许背景颜色进化得更丰富时,也会造成图像其他方面多样性的降低。

目前这个算法还存在一些“偏见”,比如要求生成“自画像”时,最终大多数肖像都是白人男性。

AI 数据 人工智能
上一篇:谷歌正在应用AI破解数据中心的下一代地热能 下一篇:行业首个少样本NER数据集,清华联合阿里达摩院开发
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载