真正的大数据问题以及为什么只有机器学习才能解决它

作者: SHARE 2019-08-16 10:38:23

为什么很多公司仍在努力构建从采集数据到获得洞察力的平稳运行的管道?他们希望投资和采用机器学习算法来分析数据,并做出商业预测。

但是,不可避免的是,他们应该意识到算法并不是魔法:如果采用的是垃圾数据,得出的就不会是一流的见解。因此,他们雇佣了一些数据科学家,但通常他们90%的时间都花在数据清洁上,只剩下10%的时间来完成分析工作。

真正的大数据问题以及为什么只有机器学习才能解决它

这个过程的缺点还在于企业喜欢采用终端算法的机器学习。Tamr公司的联合创始人兼首席执行官Andy Palmer表示,他们应该在数据早期清洁阶段尽可能地应用机器学习,而不是依靠工作人员来处理庞大的数据集。该公司帮助组织使用机器学习突破他们的数据孤岛。

许多公司在大数据收集系统上花费了大量资金。他们强调的是数据数量而非质量,这是显而易见的。

Palmer说:“任何在大公司工作的人都可以告诉你,他们从大多数内部系统获得的数据很简单,简单明了。”

Tamr公司联合创始人兼首席技术官Andy Palmer和SiliconSLE Media公司移动直播工作室CUBE的主持人Michael Stonebraker与Dave Vellante和Paul Gillin在会上进行了探讨,他们最近参加了在马萨诸塞州剑桥举行的麻省理工学院CDOIQ研讨会。他们探讨了大数据采用机器学习技术,以及为什么Tamr认为初创公司会比传统公司提供更好、更具可扩展性的大数据解决方案的原因。

大数据的清理和组织

Palmer和Stonebraker多年来一直关注大数据技术。早在2007年,他们就预测ApacheHadoop大数据框架不会带来很多人所期望的结果。

Palmer说,“有人说大数据将是一场灾难,这有些太激进了。”

他表示,这并不是说大数据集不好,显然大数据是训练分析模型和人工智能的必要工具。有些人认为,只要数据量够大,其余的分析或人工智能方面就会到位,但这让很多公司都感到失望。

企业现在意识到数据质量不可忽视。他们还知道,数据科学家不应该花费80%到90%或更多的时间清理数据,必须采用一种更好、更快的人工智能方法用于分析数据。

Palmer表示,其答案是将机器学习视为一种非常实用的工具,用于执行这些庞大而无趣的任务。许多供应商使用机器学习来使预测、推荐引擎等软件的营销更具吸引力。Tamr公司将其用于最不具吸引力的事情:在任何人分析、预测、营销或销售任何东西之前清理和组织大数据。

机器学习可以大规模处理数据

如今,并不缺乏针对数据沼泽问题的建议解决方案。许多科技公司正在推出或更新其原始产品。然而,Stonebraker指出,这些系统中通常使用的主要技术存在关键缺陷。这些传统技术包括ETL(提取、转换、加载)系统和主数据管理系统。但其缺点是不能扩展。

ETL基于这样一个前提:明智的企业会为用户想要的所有数据源提供全局数据模型。然后让每个业务部门查看他们获得了哪些数据,如何在全局数据模型中获取数据,将其加载到数据仓库中等等。Stonebraker表示,人工密集型流程往往无法扩展。他们通常会在数据仓库中集成10或20个数据源。

那么这些数据足够吗?以现实世界中的一家公司为例。TAMR公司的客户丰田汽车欧洲(TME)公司在各国都有经销商。如果有人在西班牙买了一辆丰田汽车,然后将其开到法国,那么其在法国的经销商对此一无所知。

总的来说,丰田汽车欧洲(TME)公司拥有250个独立的客户数据库,拥有使用50种语言的4000万条记录。该公司正在将它们集成到单个客户数据库中,以解决此客户的服务问题。机器学习提供了一种合理的方法来实现这一目标。Stonebraker说,“我从未见过能够处理这种规模的ETL系统。”

Stonebraker解释说,主数据管理(MDM)无法扩展的原因主要是因为它是基于规则的。通用电气公司是Tamr公司的另一家客户,希望对其交易支出进行分析,该公司在去年有2000万笔交易支出,希望将所有这些分类为基于规则的层次结构。

“所以通用电气公司制定了500条规则,只采用了18条规则就将2000万笔交易中的200万笔进行了分类,但其余的400多条规则并不会像那18条规则那样更快地进行分类。”

他指出,这是收益递减规律。他说,“企业将不得不写出大量无法理解的规则,如果不使用机器学习技术,那么将会不堪重负。”

Stonebraker承认,机器学习技术不是万能的。真正的数据驱动需要技术和文化的调整。事实上,据NewVantage Partners 公司的一项研究,77%的受访企业高管表示,尽管有大量新软件涌入市场,他们的组织很难采用大数据/人工智能计划。但这比去年的调查有所增加。这些高管列举了采用机器学习的一些障碍,其中95%是文化或组织方面的障碍,而不是技术方面的障碍。Gartner公司分析师NickHeudecker说:“企业需要为此制定一个计划,但大多数公司不会把大数据技术进行计划和处理。”

Stonebraker表示,尽管如此,技术仍然很重要,并且可能在某种程度上述案例显示了通用电气公司数据科学家如何在高达90%的时间内过滤和分类,而不是致力于混合动力汽车或燃气轮机的开发和维修。如果大数据对于现实世界的企业来说是实用的,那么机器学习就是前进的方向。

他说,“必须用机器学习取代人类,因为人们都明白,大规模传统的数据集成技术根本不起作用。”

很多企业正在考虑这一点,并将机器学习打造成他们产品的核心。Stonebraker说:“总的来说,传统的供应商落后于时代10年,而创业公司可以提供尖端的产品。”

这种“尖端”的东西是否提供了一种简便的数据货币化途径?是否会弥补在数据沼泽中浪费的时间?

Palmer指出,“我们正进入一个更快消耗数据的阶段。这一阶段是否会最终满足企业数据仓库的高期望?我不知道。但可以肯定离它越来越近了。”

大数据 机器学习 算法
上一篇:机器学习变革制造业的10种方式 下一篇:神奇的推荐系统:6亿用户音乐场景下的AI思考
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

GPT-3:被捧上天的流量巨星,却有重大缺陷,很危险...

去年当红的流量明星非GPT-3莫属,能答题、写文章,做翻译,还能生成代码,做数学推理,不断被人们吹捧。不过,过誉的背后也有人开始质疑,GPT-3真的达到了无所不能的地步了吗?

佚名 ·  17h前
听说你的多智能体强化学习算法不work?你用对MAPPO了吗

清华和UC伯克利联合研究发现,在不进行任何算法或者网络架构变动的情况下,用 MAPPO(Multi-Agent PPO)在 3 个具有代表性的多智能体任务(Multi-Agent Particle World, StarCraftII, Hanabi)中取得了与 SOTA 算法相当的性能。

机器之心 ·  18h前
女子被困浴室超30小时,危急情况AI能否救人于水火?

本文介绍了几种危急情况下AI技术救人姓名的案例,探讨了危急情况下是否可以信任AI的问题。

佚名 ·  19h前
机器学习隐私研究新进展:数据增强风险被低估,新算法“降服”维数依赖

如今,数据是推动人工智能创新的核心要素。但数据的安全和隐私问题限制了数据充分释放其潜能。一直以来,微软都倡导打造负责任的人工智能,并正在开发和利用多种技术以提供更强大的隐私保护、确保数据安全。

张辉帅 ·  23h前
谷歌气球的人工智能为何令开发者自己感到惊奇

北京时间 3 月 5 日消息,使用人工智能的算法正在尝试以意想不到的技巧来解决问题,这让它们的开发者感到惊讶。但与此同时,这也引发了人们对如何控制人工智能的担忧。

任天 ·  1天前
浙大机器鱼登Nature:深入万米马里亚纳海沟,里程碑式突破

3 月 4 日,最新一期《自然》杂志以封面文章的形式介绍了由浙江大学、之江实验室、中国科学院深海科学与工程研究所、国防科技大学、上海海洋大学、大连海事大学等团队共同完成的新研究,论文标题为《Self-powered soft robot in the Mariana Trench》。

机器之心 ·  1天前
如何爬升用于机器学习的测试集

在本教程中,您将发现如何爬升用于机器学习的测试集。完成本教程后,您将知道一下内容,一起来看看吧。

沂水寒城 ·  1天前
三个场景,用机器学习简化保险业务问题

在实际索赔案例中,保险机构往往需要使用涉及个人、场景乃至其他影响因素的大量数据。如果再结合具体保险条款的限制,整个评判体系将变得更为复杂。此外,保险业务还划分为大量险种——人寿保险与汽车保险明显就不是一回事——其各自对应不同的数据与流程。

科技行者 ·  2天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载