扩展机器学习模型的五大挑战

编译作者: 布加迪 2020-10-13 07:00:00

【51CTO.com快译】机器学习模型是为定义的业务目标设计的。机器学习模型产品化是指在相关数据集上托管、扩展和运行机器学习模型。生产级机器学习模型还需要有弹性和灵活性,以适应将来的变化和反馈。Forrester最近的一项研究表明,改善客户体验、提升盈利能力和增加收入是组织使用机器学习项目计划实现的几个主要目标。

虽然机器学习模型已获得全世界的赞誉,但很难转化为积极的业务效益。处理活跃数据并将机器学习模型部署到生产环境时,工程、数据和业务方面的一大堆问题成为瓶颈。据调查,43%的人称在机器学习模型生成和集成方面遇到障碍。确保机器学习模型实现企业预期的最终目标很重要,由于可靠而廉价的开源基础设施,机器学习模型在全球组织的采用正以前所未有的速度增长。Gartner预测,全球40%的领先组织计划在2020年底之前实际部署AI解决方案。为了解机器学习模型产品化方面的常见陷阱,不妨了解组织面临的五大挑战。

1. 数据的复杂性

需要约100万条相关记录才能在数据上训练机器学习模型,这不能是随随便便的数据。数据可行性和可预测性方面的风险浮出水面。评估我们是否有相关的数据集、是否足够快地获取这些数据集以便进行预测并非易事。获取上下文数据也是个问题。在百胜餐饮集团(Yum Brands)的一个机器学习扩展项目中,该公司的一些产品(如肯德基,奉行新的特许权加盟计划)没有足够的客户数据。光有数据还不够。大多数机器学习团队从非数据湖方法入手,在传统数据仓库上训练机器学习模型。如果是传统的数据系统,数据科学家常常将80%的时间用于清理和管理数据,而不是训练模型。还需要强大的治理系统和数据分类,以便数据透明地共享并分门别类,从而再次利用。由于数据复杂性,维护和运行机器学习模型的成本相对回报会随着时间的推移而降低。

2. 设计和部署

一旦数据可用,就必须根据使用场景和未来弹性敲定基础设施和技术堆栈。机器学习系统可能很难设计。机器学习领域有众多技术可用。模型要取得成功,关键在于选择每种技术堆栈时将不同领域的技术堆栈分别标准化,以便不会加大产品化的难度。比如说,数据科学家可能使用Pandas之类的工具,用Python编代码。但是这些未必很好地适用于Spark或Pyspark更合适的生产环境。设计不当的技术解决方案很费钱。然后,生命周期挑战以及管理和稳定生产环境中的多个模型也变得难以处理。

3. 整合风险

机器学习模型要取得成功,与不同的数据集和建模技术很好地集成在一起的可扩展生产环境至关重要。整合不同的团队和运营系统总是具有挑战性。复杂的代码库必须融入到准备部署到生产环境的结构清晰的系统中。如果没有将模型部署到生产环境的标准化流程,团队会在任何阶段停滞不前。不同的团队需要将工作流程自动化集成到工作流程系统中,并进行测试。如果未在合适的阶段测试模型,最后就要修复整个生态系统。技术堆栈必须实现标准化,否则集成可能是场噩梦。集成还是确保机器学习实验框架不是一次性奇迹的关键时刻。否则如果业务环境发生变化或遭遇灾难性事件,模型无法提供价值。

4. 测试和模型支持

测试机器学习模型很困难,但与生产过程的其他步骤一样重要,甚至更重要。了解结果、运行状况检查、监测模型性能、留意数据异常以及重新训练模型一起组成整个产品化周期。即使在运行测试之后,可能仍需要适当的机器学习生命周期管理工具来查找测试中未出现的问题。

5. 分配角色和积极沟通

数据科学、数据工程、DevOps及其他相关团队之间保持透明的沟通对于机器学习模型的成功至关重要。但分配角色、提供详细的访问权限以及为每个团队密切关注很复杂。紧密的协作和沟通对于在早期阶段识别不同方面的风险至关重要。让数据科学家深入参与也事关机器学习模型的未来。

除了上述挑战外,还要留意不可预见的事件,比如新冠疫情。客户的购买行为突然变化时,过去的解决方案不再适用,缺少充分训练模型的新数据就成了障碍。总之,扩展机器学习模型并不容易。

原文标题:5 Challenges to Scaling Machine Learning Models,作者:Sigmoid Analyitcs

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

机器学习 人工智能
上一篇:疫情下非洲正在全面的连通性建设,投资方向清晰明确 下一篇:中国研究者开发AI系统,平均3秒内识别新冠肺炎和普通感冒
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

用新的机器学习思考方式 来辨别自然异常与人为误导

某些对抗性事件很可能是人为设计而来。我们必须知晓其中的手法与工件是什么,这样才能真正理解深度神经网络的可靠性。

佚名 ·  23h前
1.8M超轻量目标检测模型NanoDet,比YOLO跑得快

目标检测一直是计算机视觉领域的一大难题,其目标是找出图像中的所有感兴趣区域,并确定这些区域的位置和类别。目标检测中的深度学习方法已经发展了很多年,并出现了不同类型的检测方法。

佚名 ·  1天前
5G助力下,未来10年将是人工智能的“黄金十年”

近日,习近平总书记在G20峰会第一阶段会议上指出,疫情激发了5G、人工智能、智慧城市等新技术、新业态、新平台蓬勃兴起,“非接触经济”全面提速,为经济发展提供了新路径。

科技日报 ·  1天前
新时代如何把握住人工智能的优势,让自己不被时代淘汰

随着人工智能在企业的应用和发展,企业领导者必须着眼于基于云计算的人工智能和现代化的数据结构,以提高市场竞争力。

尚学堂java学院 ·  1天前
对话李兰娟:人工智能将疫情“一网打尽”,让医疗更精准

李兰娟指出,人工智能、大数据在这次抗疫中发挥了作用,首先是发现和控制传染源方面,通过大数据人工智能我们能够了解到与传染源接触到的所有人;第二是人员流动的控制,包括健康码、红外线测温等等,极大程度地了解了人的健康情况。

新京报 ·  1天前
面向未来系统设计的机器学习

Elias Fallon是行业领先的电子设计自动化技术提供商Cadence Design Systems公司的工程主管。他带领其定制IC研发团队以及电子设计自动化(EDA)产品团队进行项目开发。

Elias Fallon ·  1天前
人工智能如何在大数据处理中应用

人工智能,是处理大数据最理想和最有效的方法。我们的世界一直沉浸在大数据中,你能想到的任何话题,无论在线还是离线,都有大量的数据,如我们的日常活动、对无生命事物的偏好、属性、用途等等。下面,我们就来看看人工智能是如何在大数据处理中应用的?

W ·  1天前
在智能家居设备中融合ML和IOT

人工智能是一项正在常规基础上进行大量研究的技术。

Cassie ·  1天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载