机器学习项目中特征工程的5个优秀实践

作者: deephub 2021-05-10 16:41:19

 随着时间的推移,我们通过各种不同的技术和方法,确认在机器学习项目中什么是有效的,什么是无效的。以下总结了5个步骤希望对你有帮助。

生成简单的特征

当第一次开始建模过程时,尝试生成尽可能多的简单特征,尝试生成不需要花很长时间编码的特征。例如,与其训练Word2vec模型,不如先实现一个简单的词袋,它用最少的代码生成数千个特性。一开始就想使用任何可测量为特征的东西,因为没有明确的方法可以提前知道一个或多个特征组合是否对预测有用。

id也可以是特征(如果需要的话)

将ID添加为特性集的一部分可能听起来很愚蠢,因为唯一的ID可能不会对模型的泛化做出太多贡献。然而,包含id使从业者能够创建一个在一般情况下具有一种行为而在其他情况下具有不同行为的模型。

例如,假设我们想根据描述某个位置的一些特征对某个位置进行预测。通过将位置的id作为特征集的一部分,我们将能够为一个一般位置添加更多的训练示例,并训练模型在其他特定位置表现不同。

减少基数(如果可能的话)

作为一般经验法则,如果我们有一些具有许多不同独特值的分类特征(比如超过12个),我们应该只在希望模型根据该功能做出不同行为时才使用该功能。例如,在美国有50个州,因此你可以考虑使用一个称为“州”的特征,如果你希望模型的期望行为在加利福尼亚是一种方式,在佛罗里达是另一种方式。

另一方面,如果我们不需要一个依赖于“州”特性的行为不同的模型,那么我们最好减少“州”特性的基数。

注意计数的问题

在某些情况下,随着时间的推移,总数大致保持在相同的范围内——如果文档长度没有随着时间的推移而增加或减少,例如词袋(BoW)就是这种情况。

计数可能导致问题的实例。 例如,在一个场景中,我们具有一个特哼,可以统计用户自订阅服务以来进行的呼叫次数。 如果提供订阅服务的公司已经存在很长时间了,那么单纯的统计会看到他们拨打了很多电话。

随着数据的增长,今天不那么频繁的值在将来可能会变得越来越频繁。所以处理这类的问题需要增加时间窗口

进行特征选择

以下是只在绝对必要时才执行特性选择的一些理由;

模型必须是可解释的,所以最好保留最重要的特性

有严格的硬件要求

没有太多的时间来执行大量的实验和/或为生产环境重建模式

在多个模型训练之间会有预期的分布变化

机器学习 人工智能 IT
上一篇:用AI和自动化技术来增强安全 下一篇:华人小哥的“黑话”数据集,AI:你连dbq都不懂
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载