关于机器学习管道需要了解什么?

编译作者: 李睿 2020-11-17 08:00:00

【51CTO.com快译】随着蓬勃发展的持续集成 (CI) /持续交付(CD)推动了机器学习的开发,IT专业人员可以通过多种选项了解机器学习管道,并维护数据模型的可靠性。

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术,他们通常认为,IT主管能够有效调动流程,并使模型表现良好。现实情况是,了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘,而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。

机器学习管道实质上是构建和自动化程序所需输出的开发步骤。开发人员使用“管道”这一术语描述软件如何从形成源代码并进入生产环境中的过程。实际上,人们可能会看到许多商业的编程服务管道,例如将软件部署到存储库中以进行更新。在采用机器学习的情况下,管道描述了在部署之前调整数据的过程以及部署过程。

机器学习管道包括数据采集、数据处理、数据转换、模型训练。每个阶段的活动通过数据和代码的处理方式进行链接。数据采集是从计划的数据源获取数据。其采集的类型包括从简单上传的数据文件到从数据湖或数据库中查询所需的数据。

数据处理是创建按行、列和值准备数据集的编程代码。准备应用基于已知数据质量的更改。用数据集平均值作为对缺失值进行补充。

数据转换是通过应用程序转换数据格式,以便模型读取数据。它旨在以模型可识别的格式排列数据类型,例如应用编码从数据集中移动分类文本。

模型训练涉及运行数据以建立模型规范。可以根据所使用的模型类型解决这些问题。一些机器学习框架的扩展旨在简化模型的部署和调整。例如,TensorFlow在R编程中有一个名为tfdatasets的库,该库可用于输入管道。

在训练数据模型之后,最后一步是测试模型,以查看其产生预测值的准确性如何,并相应地调整模型的参数。

文档的重要性

机器学习管道中的另一个重要细节是文档。文档用于建立在指定时间段内运行功能的说明。YAML是用于此目的的文本编程语言。该文档使用名称值对(如JSON文件中的名称对)进行设计。

由于需要大量步骤,IT专业人员可以通过管理机器学习管道流程的平台来学习如何管理与管道相关的问题。最常用的是Microsoft Azure ML、Amazon Sagemaker和Google Cloud AI。其中每一个平台都为开发管道提供了集成的环境,并提供了与其他云计算服务一起工作的特定功能。例如,Azure Pipelines与Microsoft IDE,Visual Studio Code同步,为开发人员提供一个专用的工作流来上传所需的更正数据。这对于编辑YAML文件进行配置来说特别方便。

相对于语言、平台和媒介,每种平台服务都有自己独特的优势。例如,Azure ML支持Python或R,并为AutoML(基本机器学习过程的框架)提供了更多选项。这一细节将表明企业团队需要培训哪些专业知识。

熟悉加速器的使用

除了学习平台之外,IT团队还应该熟悉加速器的使用。加速器是一种云计算服务,承载着GPU(图形处理单元)的多个处理器核心。GPU是一种专用处理器,可为图形和数学计算提供专用内存。GPU可以处理大量数据,从而节省了在笔记本电脑处理器上无法实现的测试和训练时间。

加速器有时需要其他框架来访问用于连接模型的解决方案。例如,TensorFlow具有一个库,用于将不同版本的GPU连接到TPU(张量处理单元),以管理在训练和测试运行期间产生的数百万个计算参数。因此,IT团队应寻求有关框架的培训,以了解可能出现的部署问题。

学习和熟悉管道平台和加速器为在模型环境中计划持续集成 (CI)/持续交付(CD)奠定了基础。而可观测性成为必不可少的主题,可观测性允许监视模型性能以进行效率调整,这尤其具有价值,因为模型可能需要很长时间进行测试和训练。可观测性系统可以使IT团队对控制模型的更改进行版本控制,从而可以准确调试因性能问题而导致的编程。这种可重复性也为模型验证奠定了基础。模型验证检查了几种环境中的模型操作,有助于企业选择最佳的机器学习模型。

一旦规划了验证和版本控制,应该更容易设想持续集成 (CI) /持续交付(CD)的实践。持续集成 (CI) /持续交付(CD)的价值在于交付根据管道阶段和模型条件精心编排的更新。

了解管道可以为使用持续集成 (CI) /持续交付(CD)技术和机器学习模型的IT团队设置正确的工作流程。它还为IT团队更好地讨论影响业务运营的管道流程铺平了道路。这样就打造了一支积极主动的IT团队,可以使机器学习保持最新状态,从而获得成功。

原文标题:What You Need to Know About Machine Learning Pipelines,作者:Pierre DeBois

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

机器学习 管道 IT
上一篇:打工人请注意:AI不是要取代流水线上的工人,而是管理者! 下一篇:首场直播送福利,听他们聊聊智能硬件
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

机器学习和AI如何影响餐饮业

最近,COVID-19大流行以及它如何与食品企业的制造或破产联系在一起,成为人们关注的焦点。在讨论食品工业时,可能最后想到的事情之一是现代技术,尤其是人工智能和机器学习。

Cassie ·  1天前
5分钟介绍各种类型的人工智能技术

人工智能是一个广泛的术语,涵盖了许多技术,所有这些技术使计算机能够显示类似于我们人类的某种程度的智能。

deephub ·  1天前
第四范式NeurIPS 2020:知识图谱嵌入的自动化

前不久,来自第四范式的资深研究员姚权铭博士和大家分享了其参与并被 NeurIPS 2020 接收的论文《Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding》。

机器之心 ·  2天前
AI的偏见:机器就是绝对理性的么?

人工智能已经遍布我们的日常生活。从YouTube的首页推荐到生产药物,它无所不在,它对我们生活的影响超出我们的想象。但人工智能一定公平吗?不,绝对不是。

读芯术 ·  2020-11-27 14:34:09
机器学习平台在Kubernetes上的实践

本文回顾总结近一段时间网易云音乐机器学习平台(GoblinLab)在容器化实践的一些尝试。截止今日,音乐机器学习平台(GoblinLab)在容器化方面的尝试,已开展了一段时间,并且已经有了阶段性的成果。

王军正 ·  2020-11-26 18:30:33
盘点:2020年最酷的12家机器学习初创公司

我们筛选了12家初创公司,有的已经成立了几年时间,有的刚刚起步,但他们都在致力于解决与机器学习相关的各种挑战。

CRN ·  2020-11-26 18:10:26
微分方程VS机器学习,实例讲解二者异同

微分方程与机器学习作为 AI 领域建模的两种方法,各自有什么优势?

佚名 ·  2020-11-25 14:40:48
用新的机器学习思考方式 来辨别自然异常与人为误导

某些对抗性事件很可能是人为设计而来。我们必须知晓其中的手法与工件是什么,这样才能真正理解深度神经网络的可靠性。

佚名 ·  2020-11-24 19:31:41
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载