AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性

作者: 佚名 2021-05-10 17:40:14

 如果一张图片可以用一千个单词描述,那么图片中所能被描绘的对象之间便有如此多的细节和关系。我们可以描述狗皮毛的质地,要被追逐的飞盘上的商标,刚刚扔过飞盘的人脸上的表情,等等。

AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性

现阶段,包含文本描述及其相应图像的描述的数据集(例如MS-COCO和Flickr30k)已被广泛用于学习对齐的图像和文本表示并建立描述模型。

然而,这些数据集的跨模态关联有限:图像未与其他图像匹配,描述仅与同一张图片的其他描述匹配,存在图像与描述的匹配但未被标记为匹配项,并且没有标签标明何时图像与描述之间是不匹配的。

为了弥补这一评估空白,我们提出了「交叉描述:针对MS-COCO的扩展的模内和模态语义相似性判断」。

纵横交错描述(CxC)数据集使用图像-文本,文本-文本和图像-图像对的语义相似性评级扩展了MS-COCO的开发和测试范围。

评级标准基于「语义文本相似性」,这是一种在短文本对之间广泛存在的语义相关性度量,我们还将其扩展为包括对图像的判断。我们已经发布了CxC的评分以及将CxC与现有MS-COCO数据合并的代码。

创建CxC数据集

CxC数据集扩展了MS-COCO评估拆分,并在模态内和模态之间具有分级的相似性关联。鉴于随机选择的图像和描述匹配的相似性不高,我们提出了一种方法来对项目进行选择,通过人工评级从而产生一些具有较高相似性的新匹配。为了减少所选匹配对用于查找它们的模型的依赖性,我们引入了一种间接采样方案,其中我们使用不同的编码方法对图像和描述进行编码,并计算相同模态项匹配之间的相似度进而生成相似度矩阵。图像使用Graph-RISE嵌入进行编码,而描述则使用两种方法进行编码-基于GloVe嵌入的通用语句编码器(USE)和平均单词袋(BoW)。

由于每个MS-COCO示例都有五个辅助描述,因此我们平均每个辅助描述编码以创建每个示例的单个表征,从而确保所有描述对都可以映射到图像。

AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性

上:使用平均辅助描述编码构造的文本相似度矩阵(每个单元格对应一个相似度分数),每个文本条目对应于单个图像。下:数据集中每个图像的图像相似度矩阵。

我们从文本相似度矩阵中选择两个具有较高计算相似度的描述,然后获取它们的每个图像,从而生成一对新的图像,这些图像在外观上不同,但根据描述的相似。

例如,「一只害羞地向侧面看的狗」和「一只黑狗抬起头来享受微风」具有相当高的模型相似性,因此下图中两只狗的对应图像 可以选择图像相似度等级。此步骤也可以从两个具有较高计算相似度的图像开始,以产生一对新的描述。

AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性

上:根据描述相似度来选择图像匹配。下:根据描图像的相似度来选择描述匹配。

通过使用现有的图像标题对在模态之间进行链接来做到这一点。例如,如果人对一个描述匹配样本ij的评级为高度相似,我们从样本i中选择图像,并从样本j中选择描述,以获得一个新的用于人工评级的模态内匹配。然后,我们使用具有最高相似性的模态内对进行采样,这可以包括一些具有高度相似性的新匹配。

AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性
AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性
AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性
AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性
AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性
AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性

不同相似度的语义图像相似性(SIS)和语义图像文本相似性(SITS)示例,其中5为最相似,0为完全不相似。

评估

MS-COCO的匹配是不完整的,因为有时为一幅图像的描述同样适用于另一幅图像,但这些关联并未记录到数据集中。CxC使用新的正向匹配增强了这些现有的检索任务,并且还支持新的图像-图像检索任务。

通过其相似度的评级判断,CxC还可以测量模型和人工评级之间的相关性。不仅如此,CxC的相关性分数还考虑相似度的相对顺序,其中包括低分项(不匹配项)。

我们进行了一系列实验,以展示CxC评级的效用。为此,我们使用基于BERT的文本编码器和使用EfficientNet-B4作为图像编码器构造了三个双编码器(DE)模型:

1. 文本-文本(DE_T2T)模型,双方使用共享的文本编码器。

2. 使用上述文本和图像编码器的图像文本模型(DE_I2T),且在文本编码器上方有一个用来匹配图像编码器输出的层。

3. 在文本-文本和图像-文本任务的加权组合上训练的多任务模型(DE_I2T + T2T)。

AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性

文本-文本(T2T),图像-文本(I2T)和多任务(I2T + T2T)双编码器模型的CxC检索结果

从检索任务的结果可以看出,DE_I2T + T2T(黄色条)在图像文本和文本图像检索任务上的性能优于DE_I2T(红色条)。因此,添加模态内(文本-文本)训练任务有助于提高模态间(图像-文本,文本-图像)性能。

AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性

相同模型的CxC相关结果

对于关联任务,DE_I2T在SIS上表现最好,而DE_I2T + T2T在总体上是最好的。相关分数还显示DE_I2T仅在图像上表现良好:它具有最高的SIS,但具有更差的STS。

添加文本-文本损失到DE_I2T训练中(DE_I2T + T2T),可以使整体性能更加均衡。

AI 数据 人工智能
上一篇:华人小哥的“黑话”数据集,AI:你连dbq都不懂 下一篇:人工智能是医疗卫生领域的变革力量
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载