打破“维度的诅咒”,机器学习降维方法好

作者: 水木番 2021-05-31 09:41:17

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

使用机器学习时,你是不是经常因为有太多无关特征而导致模型效果不佳而烦恼?

打破“维度的诅咒”,机器学习降维大法好

而其实,降维就是机器学习中能够解决这种问题的一种好方法。

知名科技博主Ben Dickson 对此进行了探讨,并在TechTalks上发表了博客《机器学习:什么是降维》,本文的编译整理已受到Ben Dickson 本人授权

他指出,机器学习算法因为能够从具有许多特征的数据集中找出相关信息而大火,这些数据集往往包括了几十行的表格或者数百万像素的图像。

云计算的突破可以帮助使用者运行大型的机器学习模型,而不用管后台的计算能力。

但是,每增加一个新特征都会增加复杂性,增大使用机器学习算法的困难。

数据科学家通常使用降维,这是一套从机器学习模型中去除过多或者无关特征的技术。

降维可以降低机器学习的成本,有时还可以帮助用更简单的模型来解决复杂的问题。

以下让我们来看看是他的文章。

维度的诅咒

打破“维度的诅咒”,机器学习降维大法好

机器学习模型可以将特征映射到结果。

比如,假设你想创建一个模型,来预测一个月内的降雨量:

你有一个在不同月份从不同城市收集的各类信息的数据集,包括温度、湿度、城市人口、交通、在城市举办的音乐会数量、风速、风向、气压、购买的汽车票数量和降雨量。

显然,这些信息并不是都和降雨预测有关。

有些特征可能和目标变量毫无关系。

比如,人口和购买的汽车票数量并不影响降雨量。

其他特征可能与目标变量相关,但与它没有因果关系。

比如,户外音乐会的数量可能与降雨量相关,但它不是一个很好的降雨预测器。

在其他情况下,比如碳排放,特征和目标变量之间可能有联系,但效果可以忽略不计。

在这个例子中,哪些特征是有价值的,哪些是无用的,是显而易见的。

在其他问题中,过度的特征可能不明显,这就需要进一步的数据分析。

但是,为什么要费力地去除多余的维度呢?

因为当你有太多的特征时,你也会需要一个更复杂的模型,这就意味着你需要更多的训练数据和更多的计算能力,才能把模型训练到一个可接受的水平。

由于机器学习不了解因果关系,即使没有因果关系,模型也会试图将数据集中的任何特征映射到目标变量,这可能会导致模型错误。

另一方面,减少特征的数量会使机器学习模型更简单,更有效,对数据的要求也更低。

很多特征造成的问题通常被称为 “维度的诅咒”,而且它们并不限于表格数据。

考虑一个对图像进行分类的机器学习模型。如果你的数据集由100×100像素的图像组成,那么每个像素一个,这样的问题空间有10,000个特征。然而,即使在图像分类问题中,一些特征也是过度的,可以被删除。

降维可以识别并删除那些损害机器学习模型性能或对其准确性没有贡献的特征。

目前有几种降维技术,每一种都有有用的适用范围。

特征选择

打破“维度的诅咒”,机器学习降维大法好

一个基本且有效的降维方法是“特征选择”,就是识别和选择与目标变量最相关的特征子集。

当处理表格数据时,特征选择非常有效,因为其中的每一列都代表了一种特定的信息。

打破“维度的诅咒”,机器学习降维大法好

在进行特征选择时,数据科学家要做两件事:

保留与目标变量高度相关的特征,和对数据集的方差贡献最大的特征。

Python的Scikit-learn库开发了很多功能,能够分析、可视化和选择正确的特征,来实现机器学习模型。

比如,数据科学家可以使用散点图和热图来可视化不同特征的协方差。

如果两个特征高度相关,那么它们将对目标变量产生类似的影响,因此,可以删除其中一个,而不会对模型造成负面影响。

打破“维度的诅咒”,机器学习降维大法好

这些工具还可以帮助可视化特征和分析目标变量之间的关联性,从而帮助去除不影响目标变量的变量。

比如,你可能会发现,在你的数据集的25个特征中,有7个对目标变量的影响占到了95%。

所以能够删除18个特征,使机器学习模型变得更简单,而不会对模型的准确性产生太大影响。

投影技术

有时,你没办法删除个别特征,但这并不意味着不能简化机器学习模型。

投影技术 就是一个好办法,也被称为 “特征提取” ,可以通过将几个特征压缩到一个低维空间来简化模型。

用于表示投影技术的一个常见示例是 “瑞士卷”

这是一组围绕三维焦点旋转的数据点,这个数据集有三个特征。每个点(目标变量)的值是根据它沿卷曲路径到瑞士卷中心的距离来测量的。在下面的图片中,红点更靠近中心,黄点沿着滚动方向更远。

打破“维度的诅咒”,机器学习降维大法好

创建一个机器学习模型,将瑞士卷点的特征映射到它们的值非常难,需要一个具有许多参数的复杂模型。但是,引入降维技术,这些点可以被投射到一个较低维度的空间,可以用一个简单的机器学习模型来学习。

有各种投影技术。在上面的例子中,我们使用了 “局部线性嵌入(LLE)”的方法,这种算法可以降低问题空间的维度,同时保留了分离数据点数值的关键元素。当我们的数据用LLE处理时,结果看起来就像下面的图片,这就像一个展开的瑞士卷。

你可以看到,每种颜色的点都保持在一起。因此,这个问题仍然可以简化为一个单一的特征,并用最简单的机器学习算法(线性回归)建模。

打破“维度的诅咒”,机器学习降维大法好

虽然这个例子是假设性的,但如果你把特征投射到一个较低维度的空间,经常会面临一些可以简化的问题。

比如, “主成分分析”(PCA) 是一种流行的降维算法,在简化机器学习问题方面有许多有用的应用。

打破“维度的诅咒”,机器学习降维大法好

在优秀的《用Python进行机器学习(Hands-on Machine Learning with Python)》一书中,数据科学家Aurelien Geron展示了如何使用PCA将MNIST数据集从784个特征(28×28像素)减少到150个特征,同时保留了95%的方差。

这种降维水平对人工神经网络的训练和运行成本的影响特别大。

打破“维度的诅咒”,机器学习降维大法好

关于投影技术,有几个注意事项需要考虑:

一旦你开发了投影技术,就必须先将新数据点转换到低维空间,然后再通过机器学习模型运行它们。但如果这个预处理步骤的成本太大,最后模型的收益太小的话,可能不太值。

第二个问题是,转换后的数据点可能不能直接代表其原始特征,如果将它们再转换回原始空间可能很麻烦,某些情况下也不太可行,因此这可能会很难解释模型的推论。

机器学习工具箱中的降维

简单总结一下。

过多的特征会降低机器学习模型的效率,但删除过多的特征也不太好。

数据科学家可以用降维作为一个工具箱,生成好的机器学习模型,但和其他工具一样,使用降维的时候也有许多问题,有许多地方都需要小心。

作者简介

打破“维度的诅咒”,机器学习降维大法好

知名科技博主、软件工程师Ben Dickson,TechTalks的创始人。

机器学习 人工智能 计算机
上一篇:清华唐杰团队造了个“中文ai设计师”,效果超Dall·E 下一篇:最快AI计算机开动,每秒4百亿亿浮点运算!正拼接最大宇宙3D地图
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载