只有不到20%的机器学习PoC(概念验证)项目能够顺利投产,而这其中的大部分也可能会止步于其方案的“产品化”阶段。从概念验证到实际产品,人工智能应用落地到底要跨越多大的鸿沟呢?来看看这篇文章怎么说。注意:文中可能存在“机器学习”和“人工智能”概念混用的情况,不必纠结于此。

  今年,虽然不少公司都在部署人工智能解决方案,也取得了一定的成果,但只有少数公司做到了全面部署人工智能,从而为公司带来真正的附加价值。

  据我所知,只有不到20%的机器学习PoC(概念验证)项目能够顺利投产,而这其中的大部分也可能会止步于其方案的“产品化”阶段。

  PoC的困境

  大多数公司首先通过概念验证(proof of concept , PoC)项目来证明人工智能方案可以削减成本,改善客户体验,或者在某种程度上形成业务差异化。

  PoC通常采用相对简单的算法,训练数据也是即时可用的或内部标记的,其主要目标是证明可以用少量的数据训练算法以解决特定场景的问题。

  如果PoC获得成功,那么项目将继续进入产品化阶段。

  进入产品化阶段意味着AI项目将变得更加复杂。这个阶段不再需要证明该解决方案的有效性,而是要将AI项目集成到公司的基础架构中,并保证它在真实环境下能够很好地工作。

  为了使项目取得成功,机器学习项目需要从一开始就将公司结构、客户、公司规模和内部工作流程等考虑在内。

  PoC往往会影响系统基础架构的性能以及知识和数据管理等,这些都将阻碍它们进入下一阶段——产品化。在AI项目中,产品化阶段的困难程度往往容易被低估。在这个阶段里,系统的工作方式很有可能需要完全改变,并且当我们越来越接近解决方案的最终版本时,新的问题也会不时出现。

  在人工智能集成的最后阶段,AI项目可能会跨多个业务线,甚至可能直面普通用户/客户,面临着来自企业级基础架构、安全性和技术支持等多方面的挑战。

  产品:在现实生活中使用的系统。它不像PoC那样是为了测试某些东西是否有效,也不像用样本数据做的简单实验。它是用真实数据来解决现实问题的系统。

  很多时候,AI方案提供商都未能证明其初始方案的有效性。为什么AI项目的实施过程会变成一场噩梦呢?其实,大多数时候,AI项目没能进入产品化阶段是因为以下因素:

  PoC项目没有产生期望的结果

  运营成本过高

  操作过于复杂

  缺乏数据

  PoC项目没能达到利益相关者的要求

  比如,某公司有一个业务问题,刚好可以用人工智能来解决,但如果需要提供核心数据或必须使用新的工作流程,那么这个公司可能就会放弃该项目。实际上,在AI项目产品化之前,必须先处理好它与软件、数据安全和大规模的新的训练数据等一系列相关的问题。

  另一个原因可能是低估了构建一个具有实际功能的AI所需的成本。将原型进行产品化需要很大的投资!公司管理层要确保他们能够负担得起。

  机器学习的概念验证(PoC)是漫长实践过程中的第一步。当你将其扩展到实际规模的应用时,你需要站在更高的角度来看待所出现的问题。

  为什么会失败?

  AI项目的概念验证(PoC)路线图上存在某些挑战,比如数据的缺乏,法律上的问题,公司员工对AI相关应用的畏惧以及系统集成能力是否足够等,因此任何公司都必须在将模型产品化之前先分析相关影响因素。

  在我看来,公司应该同时开展多个PoC项目,因为这样有助于了解公司的潜力,改善内部行为方式,快速终止那些没有前景的人工智能PoC,并发掘出最有前景的项目以便继续监控和投入资源。我看到有些公司指望用他们的第一个PoC来赚钱并且解决复杂问题,这么做十有八九会失败!

  公司还应该考虑到,进行概念验证所需的技能与将其转化为产品所需的技能是大不相同的。如果没有一个支持AI集成的架构,那么即使是最有前景的项目也会夭折。

  人工智能项目还需要得到管理层的支持,如果没有长期投资的恒心,AI应用就只能是小打小闹,永远达不到任何有意义的规模或实用性水平。这类项目的成功需要时间和耐心。

  为了使PoC获得成功,必须进行广泛的研究,建立一个跨职能部门的团队,并调研和测试各种硬件规格,此外还可能需要请外部专家对模型进行微调。虽然我们在最初研究的2-3周内就做可以做出原型,但接下来的开发需要更长的时间,并且需要大量的资金和时间投入。

  根据我的经验,一个好的PoC需要大约半个月时间。事实上,整个数据收集过程是非常耗时的。更不必说,大多数公司在提到使用AI都有惊奇的想法,但往往得不到对的数据。

  举个例子,如果在做PoC的时候,算法可以识别在相同光线、距离和角度下拍摄到的人脸,那么在试点项目中该算法就需要适应不同的光线、距离、角度、肤色、性别,等等。这自然意味着更多的数据。

  PoC中的机器学习模型所需的输入数据与产品中持续大规模的输入数据之间存在很大差别,能认识到这一点很重要,但这经常被公司或者项目组所忽视。

  我在几个项目中使用了不一样的和不完善的数据集,这使我意识到:人们在将小规模的ML算法转移到生产过程中时,可能会大大低估为获取数据而投入的时间和精力,而这些数据是扩展原有ML算法所必不可少的。

  关键之处在于将实际需求和POC数据集之间的“差距”最小化。因此,我强烈建议使用真实场景的数据。

  构建一个可靠且相关的数据集需要很多时间。为了正确地训练一个预测模型,必须遵循特定的流程来生成符合标准的数据。

  当PoC成功后,一些AI团队会考虑独立完成整个项目的数据准备工作。我相信,他们低估了公司提供所需数据的难度(信息孤岛,效率低下等)。在这一步,我们通常会开始了解公司的运作方式。

  实际上,生产系统中会包含许多未知案例,训练算法会产生对大量数据的需求(通常是压倒性的)。郑州妇科医院×××:http://mobile.zztjfk.com/