现代化机器学习工具,助数据科学家开展更多工程或业务功能

作者: 云智时代 2020-07-04 11:02:43

数据科学的发展日新月异,机器学习的角色正从数据科学的混合角色过渡到更多的工程或面向分析的角色,主要是以下的因素促成了这种变化:

  • 机器学习模型更多地被应用到生产系统中,需要数据科学家具有比以前更深入的技术技能。
  • 商业产品和用户行为的变化步伐加快,对自动化的需求也增加。
  • 还有出于数据合规和监管的要求,增加了对数据的可追溯性和可解释性的预测和决策的需求。

这些变化的因素也导致了数据科学家使用的工具发生了变化。使得他们更多的利用云,自动化,可解释性和可重复过程的方向去发展。

基于云的机器学习。云基础架构和Kubernetes改变了数据科学家进行机器学习的方式。从能够将预构建的解决方案用作Saas应用程序,到能够在Kubernetes上运行完整的机器学习堆栈。

AutoML和编排。AutoML简化了训练模型,提供了一种自动的方法来进行数据准备,特征工程,超参数优化或模型的选择。

可解释且可重复的ML。在过去几年中,出现了一些库和工具来帮助理解模型预测及其背后的权重并赋予其含义。如whatiftools,Lime,Shap或Manifold之类的工具可以帮助数据科学家来实现这一目标。

基于云的机器学习

向云和Kubernetes的迁移是时下的主流方向,这推动了机器学习工程师对更多DevOps或数据操作功能的需求。

深度学习的快速发展推动了机器学习的进步,但深度学习需要更多的计算资源,它的利用率随工作负载变化很大,这迫使Tensorflow执行程序在Kubernetes上运行来支持更弹性和可扩展的基础架构。

另一个因素是机器学习在生产环境中的重要性日益提高。这种转变又增加了在原型堆栈和生产之间紧密结合的需求,并借助各种云的平台,比如AWS SageMaker、Google Cloud ML Engine。这些工具提供了如模型部署和API配置之类的功能,从而简化了流程将模型推向生产的过程。

AutoML和机器学习工作流程

具有生产型机器学习系统的重要性的提高反过来加速了从培训到部署的整个机器学习价值链对自动化的需求。自动化允许更快地迭代和改进模型。

AutoML提供了围绕模型训练过程的自动化层,可以处理其一些重复的任务。它可以处理如超参数优化,功能和模型选择之类的任务。现在,像Tpot或AutoKeras之类的库,以及大多数云提供商的机器学习即服务都将AutoML作为其解决方案的一部分。

对自动化的需求也增加了对工具进行编排的不同部分的需求。工作流工具如,Airflow,Kubeflow,MLFlow和MetaFlow是用于帮助实现这一目标的一些关键工具。他们负责将整个机器学习过程作为一条流水线来处理,帮助协调从数据采集到模型服务的端到端流程。

可解释且可重复的ML

合规和监管影响了我们构建机器学习模型的方式。他们推动了可解释和可复制的模型。

在可解释的方面,已经出现了一系列工具,可以帮助数据科学家从其模型中获得意义。这些工具评估不同的方案,分析变量如何互操作,并提供仪表板以帮助解释模型预测。whatiftools,Lime,Shap或Manifold是应对这一挑战的工具。

除了提供可靠的方法来调试模型的优点外,可复制性是受法规影响的另一个方面。总有可能使用工作流工具创建可重复的机器学习管道,但仍出现了一些特定的工具来简化这个过程。

DVC,Dolt,Weight and Biases(WANDB)和Dags Hub等是一些专门的工具,使构建模型,可重复的方式更简单。DVC负责模型和数据集的版本控制,而Dolt严格限于数据集本身。WANDB和Dags Hub则专注于跟踪模型构建/训练的权重和结果。

总结

机器学习工具,已经不仅仅局限于利用一些预测库和Jupyter笔记本。现在,进行数据科学需要掌握更广泛的工具集,其中包括云,工作流工具,解释和版本控制工具。这些增加的现代化工具应有助于数据科学开展更多的工程或业务功能。

机器学习 数据科学家 数据科学
上一篇:垂直AI初创企业 VS 横向AI初创企业:不同的产品路线选择 下一篇:Frost&Sullivan预测,到2025年,用于仓储管理的自动送货机器人市场将达到272亿美元
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

传统健身房也要被人工智能淘汰了吗?

和人们的传统健身观念不同,机器学习和人工智能早已成为现代健身项目的重要组成部分。

周舟 ·  1天前
机器学习带你横扫乐坛,你就是下一个方文山

我太爱北极猴子乐队了,但他们已经很久没有发行新单曲了。久久欠缺精神食粮的我某天晚上突然灵机一动,我可以自给自足呀!于是我写了个简单的代码,用Keras和TensorFlow训练了一个文本生成模型,写出一首全新的北极猴子的歌。

读芯术 ·  2天前
令人着迷的无梯度神经网络优化方法

梯度下降是机器学习中最重要的思想之一:给定一些代价函数以使其最小化,该算法迭代地采取最大下降斜率的步骤,理论上在经过足够的迭代次数后才达到最小值。柯西(Cauchy)于1847年首次发现,在1944年针对非线性优化问题在Haskell Curry上得到扩展,梯度下降已用于从线性回归到深度神经网络的各种算法。

AI火箭营 ·  3天前
机器学习项目必备:端到端机器学习项目开发过程的任务表

任务列表能指导开发人员完成下一步,促使你检查每个任务是否已成功执行。有时候,我们很难找到出发点,任务表也可帮助开发人员从正确的来源中获取正确的信息(数据),以便建立关系并揭示相关的见解。

读芯术 ·  3天前
在理解通用逼近定理之前,你都不会理解神经网络

从字面上看,通用近似定理是神经网络起作用的理论基础。然而,最重要的是,该定理令人惊讶地解释了为什么神经网络似乎表现得如此聪明。 理解它是发展对神经网络的深刻理解的关键一步。

闻数起舞 ·  3天前
机器学习工程师正在失业,但学习依旧是唯一的出路

人工智能(AI),机器学习(ML)和数据科学(DS)几个领域最先出现收缩是合情合理的,因为对大多数企业来说这些都是奢侈品。

大数据文摘 ·  3天前
MIT开发出造梦机器,「美梦孵化器」为你定制真人版盗梦空间

美国麻省理工(MIT)的一组天才研制出了一种实验装置,能让佩戴者在睡觉时触发特定的梦境体验。

佚名 ·  2020-07-31 14:59:20
为什么说机器学习是预防欺诈的优秀工具?

随着现代技术的发展和完善,生活变得越来越舒适。虽然以前人们认为同时进行复杂的操作是不可能的,而如今计算机使这一任务变得很容易了。

Giorgi ·  2020-07-29 08:34:30
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载