清华唐杰团队造了个“中文ai设计师”,效果超Dall·E

作者: 晓查 2021-05-31 09:45:51

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

要说2021年OpenAI最热最有创意的产品,那么非Dall·E莫属了,这是一个可以从“AI设计师”,只要给它一段文字,就能按要求生成图像。但可惜的是Dall·E并不支持中文。

现在好了,最近清华大学唐杰团队打造了一个“中文版Dall·E”——CogView,它可以将中文文字转图像。

CogView可以生成现实中真实存在场景,如“一条小溪在山涧流淌”:

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

也可以制造不存在的虚拟事物,如“猫猪”:

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

有时候还有点黑色幽默,如“一个心酸的博士生”:

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

CogView现在还提供了试玩网页,你可以在那里输入任何文字去转成图形,不像OpenAI的Dall·E只提供几个关键词修改选项。

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

能指定画风,能设计服装

CogView的能力可不仅仅是从文字输入图像,它还能处理不同微调策略的下游任务,例如风格学习、超分辨率、文本图像排名和时装设计。

在使用CogView的时候,可以加入不同风格限定,从而生成不同的绘画效果。在微调期间,图像对应的文本也是“XX风格的图像”。

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

CogView设计的服装也像模像样,看起来就像电商展示页,没有虚假痕迹。

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

原理

CogView是一个带有VQ-VAE分词器40亿参数的Transfomer,它的总体结构如下:

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

CogView使用GPT模型处理离散字典上的token序列。然后将学习过程分为两个阶段:编码器和解码器学习最小化重建损失,单个GPT通过串联文本优化两个负对数似然 (NLL) 损失。

结果是,第一阶段退化为纯离散自动编码器,作为图像tokenizer将图像转换为标记序列;第二阶段的GPT承担了大部分建模任务。

图像tokenizer的训练非常重要,方法有最近邻映射、Gumbel采样、softmax逼近三种,Dall·E使用的是第三种,而对于CogView来说三者差别不大。

CogView的主干是一个单向Transformer,共有48层、40个注意力头、40亿参数,隐藏层的大小为2560。

在训练中,作者发现CogView有两种不稳定性:溢出(以NaN损失为特征)和下溢(以发散损失为特征),然后他们提出了用PB-Relax、Sandwich-LN来解决它们。

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

最后,CogView在MS COCO实现了最低的FID,其性能优于以前基于GAN的模型和以及类似的Dall·E。

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

而在人工评估的测试中,CogView被选为最好的概率为37.02%,远远超过其他基于GAN的模型,已经可以与Ground Truth(59.53%)竞争。

清华唐杰团队造了个“中文AI设计师”,效果超Dall·E,可在线试玩

另外作者已经放出了GitHub项目页,不过目前还没有代码,感兴趣的朋友可以关注一下等代码放出。

论文地址:
https://arxiv.org/abs/2105.13290

试用Demo:
https://lab.aminer.cn/cogview/index.html

GitHub页:
https://github.com/THUDM/CogView

AI 数据 人工智能
上一篇:中国人开始反算法:不登录、不点赞、不关注、不评论 下一篇:打破“维度的诅咒”,机器学习降维方法好
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载