强化学习能否在2020年取得突破?

作者: Bill Vorhies 2020-01-23 15:33:07

 强化学习对于实现我们的人工智能 / 机器学习技术的目标来说至关重要,但现在我们还有一些障碍需要克服。尽管可靠性和减少训练数据的目标在一年内就可能实现,但是,强化学习本质上是一种“黑盒”解决方案,其缺乏透明度的特性会带来很多质疑。

传统的机器学习乃至深度学习的监督及非监督学习,是企业目前在人工智能 / 机器学习领域进行大量投资并从中获取回报的核心领域。但事实是, 这些技术目前已经相当成熟,收益曲线也日趋平坦。

如果我们要在人工智能 / 机器学习领域寻找下一个突破技术,那么几乎可以肯定的是,这个突破将来自强化学习。在强化学习领域需要投入大量的努力,但是平心而论,强化学习还没有达到必要的标准化水平,尚不足以成为为商用化准备就绪的工具。

在游戏领域已经有相当多值得报道的成功案例(如 Alpha Go),在无人驾驶领域也有一些成功案例。但尽管在解决涉及系列决策的问题时,强化学习应该是我们的首选技术,可它还没有达到我们所需要的水平。

在我们的上一篇文章中,我们强调了两个阻碍强化学习的缺点,这正是微软强化学习领域的首席研究员 Romain Laroche 所描述的:

“它们基本上是不可靠的。更糟糕的是,由于强化学习过程中的随机性,使用不同随机种子的两次运行的结果可能非常不同。”

“它们需要数十亿的样本才能获得结果,而在现实世界的应用中提取如此天量的样本是不可行的。”

我们专注于一些有希望的研究,这些研究用少得多的数据、有限的财务投入和实际约束解决了训练问题。然而,剩下的问题甚至更加复杂。

由于强化学习解决方案是用随机种子启动的,因此,它们本质上是对状态空间的随机搜索。设想一下,两个启动算法随机进入这个潜在解决方案的巨大丛林,目标是找到最快的出路。尽管这两个解决方案可能达到相同的性能级别,但是,强化学习是众所周知的黑盒,它使我们无法了解系统为何及如何选择执行这一系列步骤。

Gartner 最近的报告 《2020 年 10 大战略技术趋势》 中提到的两个互相矛盾的目标,突显了其重要性。

引起我们注意的两个趋势是:

趋势 8:智能设备(Autonomous things)

“智能设备,包括无人机、机器人、船舶和家用电器,利用人工智能代替人类完成任务。该技术在半智能到完全智能的智能范围内运作,并能在包括天空、海洋和陆地等各种各样的环境中运作。智能设备也将从独立的设备向协作的集群转变,例如在 2018 年冬季奥运会上使用的无人机群。”

该报告没有提到的是,要实现这一点将需要强大而可靠的强化学习。尽管有一些非常震撼人的机器人(想想 Boston Dynamics 公司吧)主要依靠物理运动的算法,而不是人工智能 / 机器学习技术,但行业需要强化学习才能走进下一个发展阶段。

而第 2 个趋势对强化学习来说将更加困难。

趋势 5:透明度和可追溯性

“技术的发展正在制造信任危机。随着消费者越来越关注自身信息被收集和使用的情况,各种组织也意识到存储和收集这些数据时所肩负的责任越来越大。”

“此外,人工智能和机器学习越来越多地用于代替人类做出决策,从而演变出信任危机,并推动了对可解释的人工智能和人工智能治理等理念的需求。”

尽管我们很可能想到 GDPR 以及围绕着电子商务的隐私问题,但事实是,基于我们对人工智能 / 机器学习如何做出决策的理解,这些技术终将受到挑战。

尤其是考虑到强化学习政策制定的随机性,以及两个成功的强化学习程序可以以完全不同的方式实现相同的目标,这将是一个难以克服的挑战。

应对可靠性问题

Romain Laroche 提出了两种技术,有望解决可靠性问题。在其论文中,一个使用集成方法(EBAS),而另一个使用调整微调参数条件风险值(Conditional value at Risk,简称 CvaR,即最差运行的平均值),这两种技术都能提高性能并减少训练时间,同时限制强化学习运行的自然趋势,以在系统中找到及利用故障。如果实际投入生产,该系统可以导致成功的结果,但是包含某种形式的意外损害。后一种技术以 SPIBB 命名,SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的缩写,即具有基线引导的安全策略改进。

该集成方法借鉴了机器学习中的相同概念,并且与遗传算法选择训练过程中的搜索过程类似,从而得到了一些很好的结果。

强化学习能否在2020年取得突破?

EBAS 算法学习速度更快,而且最终性能没有任何下降。

透明度?

我们似乎正在解决可靠性问题以及另一个海量训练数据的需求问题。这无疑将把我们引向透明度问题。比如,无人驾驶汽车在发生人员伤亡后所受到的审查。对比人类操作人员犯错,我们对机器犯错的容忍度更低。

毫无疑问,强化学习将在 2020 年做出重大贡献,但是,想要实现一个经过验证的,商业上得到接受的方案所面临的障碍,以及由于其缺乏透明性而带来的阻力等问题,不太可能在一年内完全解决。

AI 数据 人工智能
上一篇:我花了两年,从不懂Python变成了AI工程师 下一篇:需要关注的2020年8个人工智能趋势
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

如何避免又一个AI寒冬?

尽管过去几年中,人工智能取得了长足的进步,但相信很多人都还记得20世纪90年代,由于开发者过分夸大承诺以及最终用户不切合实际的期望所导致的AI寒冬。

佚名 ·  21h前
研究型AI面试怎么过?Reddit网友谷歌面试经验分享

大多数学生在求职前,都会经历实习的过程,那么面试就必不可少。

十三 ·  1天前
算法攻破人脸识别「口罩」难题,两天落地千人小区准确率达97% | AI 战疫

日益成熟的人工智能,正成为抗击新冠肺炎疫情战线上一群特别的「逆行者」。

Synced ·  1天前
中美领军全球AI竞赛,人工智能被高估了么?

不久前,谷歌前CEO施密特在出席众议院科学、太空和技术委员会的听证会时表示,美国可能在五到十年后失去在AI方面的领先地位,中国正在努力超越美国。

读芯术 ·  1天前
当下,中国智能机器人发展到底如何?

《中国机器人产业发展报告(2019年)》报告指出,目前,中国机器人研发仍以突破机器人关键核心技术为首要目标,产学研用通力配合,初步实现控制器国产化。并将突破机器人关键核心技术作为科技发展重要战略,中国厂商攻克了减速机、伺服控制、伺服电机等关键核心零部件领域部分难题。因此,核心零部件国产化趋势逐渐显现。

珍珍 ·  1天前
人工智能的未来及对ERP系统的四个新要求

在未来五年内,人工智能将对企业及其商业模式产生重大影响。调研机构普华永道公司第22届全球首席执行官年度调查表明,85%的首席执行官对此深信不疑。但是,33%的首席执行官表示,他们有限地采用人工智能,而且不到十分之一的首席执行官表示正在广泛使用人工智能,人工智能的应用范围迄今仍然受到限制。

Andy Coussins ·  1天前
波士顿机器人火爆全网后,又一个类人机器人登场

十几年前,德黑兰大学的研究人员就介绍了一种名为Surena的基本人形机器人,不久后,又推出了一种改进的可行走模型Surena II,随后在2015年推出了性能更强大的 Surena III。

中国机器人网 ·  1天前
高效的机器学习研究者,应该具备这 6 个习惯

一名优秀的机器学习研究员有哪些特质?是码力超强?还是理论功底一骑绝尘?码力和理论固然重要,但是良好的习惯才应该是检验是否优秀的唯一标准。

AI科技评论 ·  1天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载