CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

作者: 佚名 2021-05-31 13:19:55

 全球各地的人微笑或难过都是一个表情吗?

CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

人们面部表情具有一致性似乎是合理的,举例来说,无论一个人是来自巴西、印度还是加拿大,他们看到亲密朋友时的微笑,或者看到烟花表演时的激动神情,看起来基本上是一样的。

但这真的合理吗?这些面部表情和跨越地域的相关背景之间的联系真的普遍吗?在不同文化背景下,人们的微笑或皱眉会告诉我们人们是如何相互联系的,这两种情况有什么相似或不同之处呢?

科学家们试图回答这些问题,并揭示人们在多大程度上跨越文化和地理,往往使用调查为基础的研究,但这种研究严重依赖当地语言、道德规范和价值观。并且这样的研究是不可扩展的,常常以小样本和不一致的结果告终。

与基于调查的研究相比,研究面部运动模式可以更直接地理解表达人类的行为。

但是,分析面部表情在日常生活中的实际使用需要研究人员通过数百万小时的真实世界的连续镜头,这项工作极为繁琐并且需要大量的人工工作。

此外,面部表情及其展现的背景是复杂的,需要大量的样本才能得出统计学上可靠的结论。

虽然现有的研究已经对特定情境下面部表情的普遍性问题产生了不同的答案,但是使用机器学习技术来扩展研究也许能提供不同的、更清晰的答案。

2019年在《Nature》上发表的Sixteen facial expressions occur in similar contexts worldwide一文中,是第一次、大规模的、全球范围内的面部表情在日常生活中实际使用情况的分析研究,利用深层神经网络扩大表情分析。

论文中共使用来自144个国家的600万个公开视频数据集,分析了人们使用各种面部表情的背景,并证明了面部行为中丰富的细微差别,包括微妙的表情,在世界各地类似的社交场合中都有使用。

CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

深度神经网络测量面部表情面部表情不是静态的。当一个人看另一个人的表情时,起初看起来可能是愤怒,但结果可能是敬畏、惊讶或是困惑,不同的表情解释取决于一个人的面部表情所呈现的动态效果。

因此,建立一个神经网络来理解面部表情的挑战在于,它必须在其时间上下文(temporal context)中解释这种表情。训练这样一个系统需要一个大型的、多样化和跨文化的视频数据集,同时还需要充分解释的表情含义。

为了建立数据集,标注人员手动搜索广泛的公开视频集,以确定那些可能包含涵盖我们预先选择的表情类别。

CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

为了确保视频与它们所代表的区域相匹配,在视频选择中优先选择那些包含原始地理位置的视频。

视频中的人脸是通过一个类似于谷歌云端人脸检测 API 的深度卷积神经网络识别系统发现的,该系统使用一种基于传统光流(optical flow)的方法在视频剪辑过程中跟踪人脸。

使用一个类似于 Google 众包平台 的界面,如果在剪辑过程中的任何一点出现了面部表情,那么注释者就会在28个不同的类别中标记它们。

CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

因为目标是取样一个普通人如何理解一个表情,所以标注人员没有得到指导或培训,也没有提供示例表情或是标注的定义。

文中讨论额外的实验来评估从这些注释中训练出来的模型是否有偏差。

CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

人脸检测算法在整个视频中建立了每个人脸的位置序列。然后,我们使用一个预先训练的初始网络来提取特征,从脸上找到代表面部表情的最突出的一个部位。

然后,这些特征被输入一个长期短期记忆网络(LSTM)中 ,它能够模拟面部表情随着时间的推移如何演变的递归神经网络,并且能够记住过去突出的信息。

为了确保模型在一系列人口统计学群体中做出一致的预测,我们在一个现有的数据集上评估了模型的公平性,这个数据集是使用相似的面部表情标签构建的,目标是16种表情中表现最好的一种。

该模型的表现在所有类型人口组代表的评价数据集中表现了其一致性,也表明模型训练带注释的面部表情存在不可测量的偏见。该模型对1500张图片中的16种面部表情进行了注释。

CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

为了理解数以百万计的视频中面部表情的上下文,实验还测量了视频中捕获的表情的前后部分。论文中使用了可以捕获细粒度内容并自动识别上下文的 神经网络。

第一个 DNN 是视频相关的文本特性(标题和描述)与实际的视觉内容(视频-主题模型)的组合。

第二个 DNN只依赖于文本特征而没有任何视觉信息(文本-主题模型)。

这些模型预测了上万个描述视频的类别标签,在这个实验中,这些模型能够识别数百个独特的情境(例如,婚礼,体育赛事,或烟花)来展示分析数据的多样性。

文中的第一个实验中,研究人员分析了300万个手机拍摄的公共视频,手机拍摄的视频更可能包含自然的表情。

然后将视频中出现的面部表情与来自视频主题模型的上下文注释相关联,发现16种面部表情与日常社会环境有着不同的联系,这些联系在世界各地都是一致的。例如,欢乐的表情和恶作剧共同出现的概率更大; 激动的表情和烟花也更配; 胜利的表情也经常出现在体育赛事中。

这些结果对于讨论面部表情中,心理相关的场景对表情的使用有很强的暗示作用,比其他因素如那些个人、文化或社会所特有的因素更相关。

第二个实验分析了300万个单独的视频,这次使用用文本主题模型注释了上下文。结果证实了第一个实验中的发现并不是由视频中面部表情对视频主题模型注释的微妙影响所驱动的。换句话说,这个实验证实了第一个实验得出的结论,即视频主题模型在计算其内容标签时可能隐含着面部表情的因素。

CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

在这两个实验中,表情和语境之间的相关性在不同的文化中似乎都得到了很好的验证。为了准确地量化研究的12个不同世界区域的表达式和上下文之间的关联是多么相似,研究人员计算了每一对区域之间的二阶相关性。这些相关性确定了每个区域中不同表情和上下文之间的关系,然后将它们与其他区域进行比较。

最后结论,在每个地区发现的70% 的情境表情关联在世界范围是共享的。

机器学习使研究人员能够分析世界各地数以百万计的视频,并发现支持面部表情在跨文化的相似环境中被保留到一定程度这一假设的证据。

研究结果也为文化差异留下了空间,尽管面部表情和上下文之间的相关性在世界范围内有70% 的一致性,但是在不同地区之间的相关性只有30% 。相邻世界地区的面部表情和语境之间的关联通常比相距遥远的世界地区的关联更为相似,这表明人类文化的地理传播也可能在面部表情的意义上发挥作用。

这项工作表明,机器学习能够更好地了解自己,并确定跨文化的共同沟通要素。神经网络等工具使我们有机会为科学发现提供大量不同的数据,使我们对统计结论更有信心。

人脸识别 人工智能 数据
上一篇:值得关注 人工智能这5大趋势将给世界带来影响 下一篇:机器人技术和物联网如何影响供应链
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载