数据清洗&预处理入门完整指南

作者: 机器之心 2019-02-22 08:25:19

数据预处理是建立机器学习模型的***步(也很可能是最重要的一步),对最终结果有决定性的作用:如果你的数据集没有完成数据清洗和预处理,那么你的模型很可能也不会有效——就是这么简单。

人们通常认为,数据预处理是一个非常枯燥的部分。但它就是「做好准备」和「完全没有准备」之间的差别,也是表现专业和业余之间的差别。就像为度假做好事先准备一样,如果你提前将行程细节确定好,就能够预防旅途变成一场噩梦。

那么,应该怎么做呢?

本文将带你领略,如何在任意的数据集上,针对任意一个机器学习模型,完成数据预处理工作。

***步,导入

让我们从导入数据预处理所需要的库开始吧。库是非常棒的使用工具:将输入传递给库,它则完成相应的工作。你可以接触到非常多的库,但在 PYTHON 中,有三个是最基础的库。任何时候,你都很可能最终还是使用到它们。这三个在使用 PYTHON 时***的库就是 Numpy、Matplotlib 和 Pandas。Numpy 是满足所有数学运算所需要的库,由于代码是基于数学公式运行的,因此就会使用到它。Maplotlib(具体而言,Matplotlib.pyplot)则是满足绘图所需要的库。Pandas 则是***的导入并处理数据集的一个库。对于数据预处理而言,Pandas 和 Numpy 基本是必需的。

最适当的方式是,在导入这些库的时候,赋予其缩写的称呼形式,在之后的使用中,这可以节省一定的时间成本。这一步非常简单,可以用如下方式实现:

  1. import numpy as np 
  2. import matplotlib.pyplot as plt 
  3. import pandas as pd 

现在,可以通过输入如下语句读入数据集

  1. dataset = pd.read_csv('my_data.csv') 

这个语句告诉 Pandas(pd) 来读入数据集。在本文中,我也附上数据集的前几行数据。

我们有了数据集,但需要创建一个矩阵来保存自变量,以及一个向量来保存因变量。为了创建保存自变量的矩阵,输入语句:

  1. X = dataset.iloc[:, :-1].values 

***个冒号表示提取数据集的全部行,「:-1」则表示提取除***一列以外的所有列。***的「.values」表示希望提取所有的值。接下来,我们希望创建保存因变量的向量,取数据的***一列。输入语句:

  1. y = dataset.iloc[:, 3].values 

记住,在查看数据集的时候,索引(index)是从 0 开始的。所以,如果希望统计列数,从 0 开始计数而不是 1。「[:, :3]」会返回 animal、age 和 worth 三列。其中 0 表示 animal,1 表示 age,2 表示 worth。对于这种计数方法,即使你没见过,也会在很短的时间内适应。

如果有缺失数据会怎么样?

事实上,我们总会遇到数据缺失。对此,我们可以将存在缺失的行直接删除,但这不是一个好办法,还很容易引发问题。因此需要一个更好的解决方案。最常用的方法是,用其所在列的均值来填充缺失。为此,你可以利用 scikit-learn 预处理模型中的 inputer 类来很轻松地实现。(如果你还不知道,那么我强烈建议你搞明白它:scikit-learn 包含非常棒的机器学习模型)。在机器学习中,你可能并不适应诸如「方法」、「类」和「对象」这些术语。这不是什么大问题!

  • 类就是我们希望为某目的所建立的模型。如果我们希望搭建一个棚子,那么搭建规划就是一个类。
  • 对象是类的一个实例。在这个例子中,根据规划所搭建出来的一个棚子就是一个对象。同一个类可以有很多对象,就像可以根据规划搭建出很多个棚子一样。
  • 方法是我们可以在对象上使用的工具,或在对象上实现的函数:传递给它某些输入,它返回一个输出。这就像,当我们的棚子变得有点不通气的时候,可以使用「打开窗户」这个方法。

图:Roman Kraft 发布于 Unsplash

为了使用 imputer,输入类似如下语句。

  1. from sklearn.preprocessing import Imputer 
  2. imputer = Imputer(missing_values = np.nan, strategy = ‘mean’, axis = 0

均值填充是默认的填充策略,所以其实不需要指定,加在此处是为了方便了解可以包含什么信息。missing_values 的默认值是 nan。如果你的数据集中存在「NaN」形式的缺失值,那么你应该关注 np.nan,可以在此查看官方文档:

https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html

为了拟合这个 imputer,输入:

  1. imputerimputer = imputer.fit(X[:, 1:3]) 

我们只希望在数据存在缺失的列上拟合 imputer。这里的***个冒号表示包含所有行,而「1:3」则表示我们取索引为 1 和 2 的列。不要担心,你很快就会习惯 PTYHON 的计数方法的。

现在,我们希望调用实际上可以替换填充缺失数据的方法。通过输入以下语句完成:

  1. X[:, 1:3] = imputer.transform(X[:, 1:3]) 

多尝试一些不同的填充策略。也许在某些项目中,你会发现,使用缺失值所在列的中位数或众数来填充缺失值会更加合理。填充策略之类的决策看似细微,但其实意义重大。因为流行通用的方法并不一定就是正确的选择,对于模型而言,均值也不一定是***的缺失填充选择。

毕竟,几乎所有正阅读本文的人,都有高于平均水平的手臂数。

图:Matthew Henry 发布于 Unsplash

如果包含属性数据,会怎么样呢?

这是一个好问题。没有办法明确地计算诸如猫、狗、麋鹿的均值。那么可以怎么做呢?可以将属性数据编码为数值!你可能希望使用 sklearn.preprocessing 所提供的 LabelEncoder 类。从你希望进行编码的某列数据入手,调用 label encoder 并拟合在你的数据上。

  1. from sklearn.preprocessing import LabelEncoder 
  2. labelencoder_X = LabelEncoder() 
  3. X[:, 0] = labelencoder_X.fit_transform(X[:, 0]) 

(还记得括号里的数字所表示的含义吗?「:」表示希望提取所有行的数据,0 表示希望提取***列)

这就是将***列中的属性变量替换为数值所需的全部工作了。例如,麋鹿将用 0 表示,狗将用 2 表示,猫将用 3 表示。

你发现什么潜在问题了吗?

标注体系暗含以下信息:所使用的数值层级关系可能会影响模型结果:3 比 0 的数值大,但猫并不一定比麋鹿大。

图:Cel Lisboa 发布于 Unsplash

我们需要创建哑变量。

我们可以为猫创建一列数据,为麋鹿创建一列数据,……以此类推。然后,将每一列分别以 0/1 填充(认为 1=Yes,0 = No)。这表明,如果原始列的值为猫,那么就会在麋鹿一列得到 0,狗一列得到 0,猫一列得到 1。

看上去非常复杂。输入 OneHotEncoder 吧!

导入编码器,并制定对应列的索引。

  1. from sklearn.preprocessing import OneHotEncoder 
  2. onehotencoder = OneHotEncoder(categorical_features = [0]) 

接着是一点拟合和转换。

  1. X = onehotencoder.fit_transform(X).toarray() 

现在,你的那一列数据已经被替换为了这种形式:数据组中的每一个属性数据对应一列,并以 1 和 0 取代属性变量。非常贴心,对吧?如果我们的 Y 列也是如「Y」和「N」的属性变量,那么我们也可以在其上使用这个编码器。

  1. labelencoder_y = LabelEncoder() 
  2. y = labelencoder_y.fit_transform(y) 

这会直接拟合并将 y 表示为编码变量:1 表示「Y」,0 表示「N」。

训练集与测试集的划分

现在,你可以开始将数据集划分为训练集和测试集了。这已经在之前的图像分类教程一文中论述过了。不过记得,一定要将你的数据分为训练集和测试集,永远不要用测试集来训练!需要避免过拟合(可以认为,过拟合就像在一次测验前,记忆了许多细节,但没有理解其中的信息。如果只是记忆细节,那么当你自己在家复习知识卡片时,效果会很好,但在所有会考察新信息的真实测验中,都会不及格。)

现在,我们有了需要学习的模型。模型需要在数据上训练,并在另外的数据上完成测试。对训练集的记忆并不等于学习。模型在训练集上学习得越好,就应该在测试集给出更好的预测结果。过拟合永远都不是你想要的结果,学习才是!

Janko Ferlič 发布于 Unsplash

首先,导入:

  1. from sklearn.model_selection import train_test_split 

现在,可以创建 X_train、X_test、y_train 和 y_test 集合了。

  1. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0

一种常见的方法是将数据集按 80/20 进行划分,其中 80% 的数据用作训练,20% 的数据用作测试。这也是为何指定 test_size 为 0.2 的原因。你也可以根据自己的需求来任意划分。你并不需要设置 random_state,这里设置的原因是为了可以完全复现结果。

特征缩放

什么是特征缩放?为什么需要特征缩放?

看看我们的数据。我们有一列动物年龄,范围是 4~17,还有一列动物价值,范围是$48,000-$83,000。价值一栏的数值不仅远大于年龄一栏,而且它还包含更加广阔的数据范围。这表明,欧式距离将完全由价值这一特征所主导,而忽视年龄数据的主导效果。如果欧式距离在特定机器学习模型中并没有具体作用会怎么样?缩放特征将仍能够加速模型,因此,你可以在数据预处理中,加入特征缩放这一步。

特征缩放的方法有很多。但它们都意味着我们将所有的特征放在同一量纲上,进而没有一个会被另一个所主导。

导入相关库开始:

  1. from sklearn.preprocessing import StandardScaler 

创建一个需要缩放对象并调用 Standard Scaler

  1. sc_X = StandardScaler() 

直接在数据集上进行拟合以及变换。获取对象并应用方法。

  1. X_train = sc_X.fit_transform(X_train) 
  2. X_test = sc_X.transform(X_test) 

不需要在测试集上进行拟合,只进行变换。

  1. sc_y = StandardScaler() 
  2. y_train = sc_y.fit_transform(y_train) 

对于哑变量而言,是否需要进行缩放?

对于这个问题,有些人认为需要,有些则认为不需要。这取决于你对模型可解释性的看重诚度。将所有数据缩放至同一量纲固然有好处,但缺点是,这丢失了解释每个观测样本归属于哪个变量的便捷性。

对于 Y 呢?如果因变量是 0 和 1,那么并不需要进行特征缩放。这是一个具有明确相关值的分类问题。但如果其取值范围非常大,那么答案是你需要做缩放。

恭喜你,你已经完成了数据预处理的工作!

通过少量的几行代码,你已经领略了数据清洗和预处理的基础。毫无疑问,在数据预处理这一步中,你可以加入很多自己的想法:你可能会想如何填充缺失值。思考是否缩放特征以及如何缩放特征?是否引入哑变量?是否要对数据做编码?是否编码哑变量……有非常多需要考虑的细节。现在,你已经完全了解了这些,可以亲自动手试试了,准备数据吧!

原文链接:

https://towardsdatascience.com/the-complete-beginners-guide-to-data-cleaning-and-preprocessing-2070b7d4c6d

【本文是51CTO专栏机构“机器之心”的原创译文,微信公众号“机器之心( id: almosthuman2014)”】

戳这里,看该作者更多好文

数据清洗 预处理 机器学习
上一篇:二十年一轮回 AI将数据中心架构再次拖向分裂? 下一篇:微软中国 CTO:请把 AI 拉下神坛
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

数据机器学习在故障检测中的应用

本文将简要介绍几种在故障诊断领域广泛应用的机器学习技术及其各自的应用方向,并对每种技术的优缺点进行简单分析。包括:贝叶斯网络(BN),人工神经网络(ANN),支持向量机(SVM)和隐马尔可夫模型(HMM)技术。

交能网 ·  1天前
人工智能如何改造旅游业

旅游业正在慢慢地将人工智能融入到行业当中,并为游客提供个性化定制体验。在人工智能的帮助下,旅游业的业务流程和客户服务都发生了改变。

佚名 ·  1天前
治愈大脑,人机共生,马斯克为“脑机接口”辩护

随着今年年初特斯拉中国工厂正式开始交付特斯拉 model3 型号电动汽车,特斯拉的股值不断飙升,与此同时特斯拉和马斯克也在新闻媒体上赚足了眼球。

学术君 ·  2天前
如何在Kaggle上打比赛,带你进行一次完整流程体验

Kaggle是一个磨练您的机器学习和数据科学技能的好地方,您可以将自己与他人进行比较,并学习新的技术。在这篇文章中,我们利用一个典型的例子,来给大家演示如何参加Kaggle竞赛。

机器学习与数据分析 ·  3天前
一文读懂即将引爆的TinyML:在边缘侧实现超低功耗机器学习

人工智能AI正在加快速度从“云端”走向“边缘”,进入到越来越小的物联网设备中。在终端和边缘侧的微处理器上,实现的机器学习过程,被称为微型机器学习,即TinyML。

物女王 ·  3天前
谷歌发布TyDi QA语料库,涵盖11种不同类型语言

为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi QA,这是一个涵盖了 11 种不同类型语言的问答语料库。

Jonathan Clark ·  4天前
机器学习所需的工程量未来会大大减少 精选

未来,构建 ML 产品将更加有趣,并且这些系统会工作得更好。随着 ML 自动化工具的不断改进,数据科学家和 ML 工程师将把更多的时间花在构建优秀的模型上,而花在与生产级 ML 系统相关的繁琐但必要的任务上的时间会更少。

David LiCause ·  4天前
意料之外 情理之中:解读Gartner 2020年数据科学和机器学习平台魔力象限

最近Gartner发布了数据科学和机器学习(DSML)平台魔力象限报告。数据科学、机器学习和人工智能的市场格局极为分散,竞争激烈且难以理解。Gartner尝试根据明确定义的标准对厂商进行了排名。

佚名 ·  2020-02-21 17:23:21
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载