模型数据出现偏差怎么办?一文了解机器学习中的7种数据偏差类型

作者: 为AI呐喊 2020-11-02 16:29:23

 机器学习中的数据偏差是一种错误,其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例,从而导致结果偏斜、精度低和分析错误。

通常,机器学习项目的培训数据必须代表现实世界。这一点很重要,因为此数据是计算机学习完成工作的一种方法。数据偏差可能发生在一系列领域,从人类报告和选择偏差到算法和解释偏差。下图是仅出现在数据收集和注释阶段的各种偏差的一个很好的示例。

模型数据出现偏差怎么办?一文了解机器学习中的7种数据偏差类型

解决机器学习项目中的数据偏差问题意味着首先要确定数据偏差的所在位置。只有在知道存在偏差的地方后,才能采取必要的步骤来纠正,无论是解决缺少数据的问题还是改进注释过程。有鉴于此,对数据的范围、质量和处理保持警惕,尽可能避免偏差,这一点非常重要。这不仅影响模型的准确性,还可以影响道德、公平和包容问题。

本文列出了机器学习中最常见的七种数据偏差类型,可以帮助大家分析并了解偏差发生在哪里,以及我们可以对偏差做什么。

数据偏差的类型

这个列表虽然不是所有数据偏差类型都包括在内,但是常见的数据偏差示例,以及数据偏差发生的位置的示例已经包含其中。

示例偏差:当数据集不反映模型将运行的环境的现实时,就会出现示例偏差。例如某些面部识别系统主要训练对象是白人男子,因此这些模式对妇女和不同族裔的人的准确性要低得多。这种偏见的另一个名称是选择偏差。

排除偏差:排除偏差在数据预处理阶段最常见。最常见的情况是删除被认为不重要的有价值的数据。此外,系统在排除某些信息时,也有可能会发生偏差。例如,假设我们有一个北京和深圳的客户销售数据集。98% 的客户来自北京,因此我们选择删除位置数据,认为该位置数据无关紧要。但是,这就意味着我们的模型不会发现深圳客户增加了两倍的事情。

测量偏差:当为训练收集的数据与现实世界中收集的数据不同时,或者当测量错误导致数据失真时,将发生此类偏差。这种偏差的一个很好的例子出现在图像识别数据集中,其中训练数据是用一种类型的摄像机采集的,而生产数据是用另一种摄像机采集的。在项目的数据标记阶段,由于注释不一致,也可能出现测量偏差。

召回偏差:这也是一种测量偏差,在项目的数据标记阶段很常见。当我们对相同类型的数据进行不一致标记时,就会出现召回偏差,导致精度降低。例如,假设我们的团队将手机图像标记为损坏、部分损坏或未损坏。如果有人将图像标为已损坏,但将类似的图像标为部分损坏,那么我们的数据就会不一致。

观察者偏见:也称为确认偏差,观察者偏差是指在数据中看到自己希望看到的结果。当研究人员带着对研究的主观想法(无论是有意识的还是无意识的)进入项目时,就可能发生这种情况。当贴标签的人让他们的主观想法控制其标签的习惯,就会导致数据不准确。

种族偏见:虽然不是传统意义上的数据偏见,但由于它最近在人工智能技术中的流行,该偏差还是值得一提的。当数据偏向于特定人口统计学时,就产生种族偏见。从面部识别和自动语音识别技术中看出,这种技术无法像白种人那样准确地识别其他有色人种。

关联偏差:当机器学习模型的数据强化和/或让文化偏差成倍增加时,将发生这种偏差。你的数据集可能包含一组工作,其中所有男性都是医生,所有女性都是护士。这并不意味着女人不能当医生,男人不能当护士。然而,就机器学习模型而言,女医生和男护士并不存在。关联偏见最出名的是制造性别偏见,这一点在挖掘人工智能研究中可见一斑。

如何避免机器学习项目中的数据偏差?

在机器学习项目中防止数据偏差是一个持续的过程。尽管有时很难知道数据或模型何时存在偏差,但我们可以采取许多步骤来帮助防止偏差或及早发现偏差。下面的内容就是机器学习项目出现数据偏差时的一些常规手段:

  • 尽较大努力,提前研究我们的用户。记得要注意我们的一般用例和潜在的异常值。
  • 确保我们的数据科学家和数据标签团队多元化。
  • 在可能的情况下,结合来自多个来源的输入,以确保数据的多样性。
  • 为数据标签创建黄金标准。黄金标准是一组数据,反映任务的理想标记数据,能让我们能够测量团队的注释的准确性。
  • 为数据标签期望制定明确的准则,以便所有的数据标签者都能对期望值保持一致。
  • 对于数据准确性可能容易出现偏差的所有项目,记得使用多通道注释。这方面的示例包括情绪分析、内容审核和意图识别。
  • 获得具有领域专业知识的人的帮助,检查我们收集和/或注释的数据。团队外部的人可能会更容易看到团队所忽视的偏差。
  • 定期分析我们的数据。跟踪错误和问题区域,以便快速响应和解决错误和问题区域。在决定删除或保留数据点之前,请仔细分析数据点。
  • 将偏差测试作为开发周期的一部分。谷歌、IBM 和微软都发布了工具和指南,用于帮助分析对多种不同数据类型的偏差。

总结

了解任何数据项目的机器学习中的潜在偏差是非常重要的。通过尽早建立正确的系统并控制数据收集、标记和实现,我们可以在问题出现之前或在它出现之时做出反应,从而减少我们的成本,提高模型的准确率。

机器学习 技术 人工智能
上一篇:这里有你需要的5个机器学习必备技能 下一篇:从头花12年读个机器学习博士,究竟值不值?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

用新的机器学习思考方式 来辨别自然异常与人为误导

某些对抗性事件很可能是人为设计而来。我们必须知晓其中的手法与工件是什么,这样才能真正理解深度神经网络的可靠性。

佚名 ·  22h前
1.8M超轻量目标检测模型NanoDet,比YOLO跑得快

目标检测一直是计算机视觉领域的一大难题,其目标是找出图像中的所有感兴趣区域,并确定这些区域的位置和类别。目标检测中的深度学习方法已经发展了很多年,并出现了不同类型的检测方法。

佚名 ·  1天前
5G助力下,未来10年将是人工智能的“黄金十年”

近日,习近平总书记在G20峰会第一阶段会议上指出,疫情激发了5G、人工智能、智慧城市等新技术、新业态、新平台蓬勃兴起,“非接触经济”全面提速,为经济发展提供了新路径。

科技日报 ·  1天前
新时代如何把握住人工智能的优势,让自己不被时代淘汰

随着人工智能在企业的应用和发展,企业领导者必须着眼于基于云计算的人工智能和现代化的数据结构,以提高市场竞争力。

尚学堂java学院 ·  1天前
对话李兰娟:人工智能将疫情“一网打尽”,让医疗更精准

李兰娟指出,人工智能、大数据在这次抗疫中发挥了作用,首先是发现和控制传染源方面,通过大数据人工智能我们能够了解到与传染源接触到的所有人;第二是人员流动的控制,包括健康码、红外线测温等等,极大程度地了解了人的健康情况。

新京报 ·  1天前
面向未来系统设计的机器学习

Elias Fallon是行业领先的电子设计自动化技术提供商Cadence Design Systems公司的工程主管。他带领其定制IC研发团队以及电子设计自动化(EDA)产品团队进行项目开发。

Elias Fallon ·  1天前
人工智能如何在大数据处理中应用

人工智能,是处理大数据最理想和最有效的方法。我们的世界一直沉浸在大数据中,你能想到的任何话题,无论在线还是离线,都有大量的数据,如我们的日常活动、对无生命事物的偏好、属性、用途等等。下面,我们就来看看人工智能是如何在大数据处理中应用的?

W ·  1天前
在智能家居设备中融合ML和IOT

人工智能是一项正在常规基础上进行大量研究的技术。

Cassie ·  1天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载