超好用的自信学习:1行代码查找标签错误,3行代码学习噪声标签

作者: 十三 2019-11-12 13:06:20

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

你知道吗?就连ImageNet中也可能至少存在10万个标签问题。

在大量的数据集中去描述或查找标签错误本身就是挑战性超高的任务,多少英雄豪杰为之头痛不已。

最近,MIT和谷歌的研究人员便提出了一种广义的自信学习(Confident Learning,CL)方法,可以直接估计给定标签和未知标签之间的联合分布。

这种广义的CL,也是一个开源的Clean Lab Python包,在ImageNet和CIFAR上的性能比其他前沿技术高出30%。

这种方法有多厉害?举个栗子。

超好用的自信学习:1行代码查找标签错误,3行代码学习噪声标签

上图是2012年ILSVRC ImageNet训练集中使用自信学习发现的标签错误示例。研究人员将CL发现的问题分为三类:

1、蓝色:图像中有多个标签;
2、绿色:数据集中应该包含一个类;
3、红色:标签错误。

通过自信学习,就可以在任何数据集中使用合适的模型来发现标签错误。下图是其他三个常见数据集中的例子。

超好用的自信学习:1行代码查找标签错误,3行代码学习噪声标签

目前存在于Amazon Reviews、MNIST和Quickdraw数据集中的标签错误的例子,这些数据集使用自信学习来识别不同的数据模式和模型。

这么好的方法,还不速来尝鲜?

什么是自信学习?

自信学习已然成为监督学习的一个子领域。

超好用的自信学习:1行代码查找标签错误,3行代码学习噪声标签

从上图不难看出,CL需要2个输入:

1、样本外预测概率;
2、噪声标签;

对于弱监督而言,CL包括三个步骤:

1、估计给定的、有噪声的标签和潜在的(未知的)未损坏标签的联合分布,这样就可以充分描述类条件标签噪声;
2、查找并删除带有标签问题的噪声(noisy)示例;
3、进行消除错误的训练,然后根据估计的潜在先验重新加权示例。

那么CL的工作原理又是什么呢?

我们假设有一个数据集包含狗、狐狸和奶牛的图像。CL的工作原理就是估计噪声标签和真实标签的联合分布(下图中右侧的Q矩阵)。

超好用的自信学习:1行代码查找标签错误,3行代码学习噪声标签

左:自信计数的示例;右:三类数据集的噪声标签和真实标签的联合分布示例。

接下来,CL计数了100张被标记为“狗”的图像,这些图像就很可能是“狗”类(class dog),如上图左侧的C矩阵所示。

CL还计数了56张标记为狗,但高概率属于狐狸的图像,以及32张标记为狗,但高概率属于奶牛的图像。

而后的中心思想就是,当一个样本的预测概率大于每个类的阈值时,我们就可以自信地认为这个样本是属于这个阈值的类。

此外,每个类的阈值是该类中样本的平均预测概率。

轻松上手Clean Lab

刚才也提到,本文所说的广义CL,其实是一个Clean Lab Python包。而它之所以叫Clean Lab,是因为它能“clean”标签。

Clean Lab具有以下优势:

速度快:单次、非迭代、并行算法(例如,不到1秒的时间就可以查找ImageNet中的标签错误);
鲁棒性:风险最小化保证,包括不完全概率估计;
通用性:适用于任何概率分类器,包括 PyTorch、Tensorflow、MxNet、Caffe2、scikit-learn等;
独特性:唯一用于带有噪声标签或查找任何数据集/分类器标签错误的多类学习的软件包。

1行代码就查找标签错误!

3行代码学习噪声标签!

接下来,是Clean Lab在MNIST上表现。可以在这个数据集上自动识别50个标签错误。

超好用的自信学习:1行代码查找标签错误,3行代码学习噪声标签

原始MNIST训练数据集的标签错误使用rankpruning算法进行识别。描述24个最不自信的标签,从左到右依次排列,自顶向下增加自信(属于给定标签的概率),在teal中表示为conf。预测概率最大的标签是绿色的。明显的错误用红色表示。

传送门

项目地址:
https://github.com/cgnorthcutt/cleanlab/

自信学习博客:
https://l7.curtisnorthcutt.com/confident-learning

代码 开发 工具
上一篇:斯坦福大学对话特朗普政府CTO:关于AI、移民、技术基础设施及更多 下一篇:抵御另一个人工智能冬天的最后一道防线
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

2021年的12大人工智能工具和框架

您准备好在随处可见的人工智能趋势下欢迎2021年吗?这是2021年优秀AI工具和框架的汇编。根据Grand View Research所做的一项研究,“到2025年,人工智能市场规模将达到3,909亿美元。”

bookfoxers ·  2021-02-19 13:24:27
2021年排名前20位的AI平台

许多人认为,如果我们的时代是下一次工业革命,那么,人工智能无疑是其推动力之一。

bookfoxers ·  2021-02-19 13:10:27
人工智能在网络安全中的优缺点

如今,产生的数据比以往任何时候都要多。由于数据分析工具的发展,各行各业的组织都更加重视大数据的收集和存储。

bookfoxers ·  2021-02-18 00:13:29
我们需要怎样的人工智能基础教育

加强人工智能基础教育,是未雨绸缪应对未来社会发展的必然选择和要求。在促进教育高质量发展的过程中,人工智能不仅要被作为“术”,即提供科学知识与核心技术的内容载体和工具方法,更要被作为“道”,提供观念理念与思维认知,助力“实现人的自由”“促进人的全面发展”。

佚名 ·  2021-02-04 15:31:12
AI找石油,石油工业数字化转型新思维

我们知道,石油不仅是工业的血液,还跟日常生活息息相关。据统计,人的一生大约需要消耗石油在9吨以上,从衣食住行到国际经济都离不开石油。

云科技时代杂志 ·  2021-02-04 12:02:25
用户体验已成过去时 AI要从公民乃至社会的角度去思考问题

时至今日,科技巨头及其基于AI的数字平台与解决方案,完全有能力影响全球领导人、民族国家、跨国企业、全球股市乃至每位个人的命运。

科技行者 ·  2021-02-02 21:26:46
盘点2021年九大好用的人脸识别软件

人脸识别是通过个人面部的图像、视频或其他视听元素进行生物特征识别的一种方法。近十年来,全球人脸识别技术市场以前所未有的速度增长着。全球新冠疫情引发的需求改变了人脸识别的技术动态,加速了新型工具和解决方案的问世。

读芯术 ·  2021-01-29 23:14:31
俄媒:人工智能可利用面部识别判断信仰倾向

《俄罗斯报》1月19日发表了题为《藏不住了?》的文章称,美国斯坦福大学学者迈克尔·科辛斯基教授研发出了一种可根据人脸表情判断其信仰倾向的人工智能技术。

参考消息 ·  2021-01-27 22:23:50
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载