强化学习应用在自动驾驶中:一种通过人指导并基于优先经验的方法

作者: 自动驾驶的挑战和发展 2021-10-12 10:28:34

 arXiv在2021年9月26日上传的论文“Prioritized Experience-based Reinforcement Learning with Human Guidance: Methodology and Application to Autonomous Driving“,作者来自新加坡NTU(南洋理工)。

强化学习(RL)需要定义和计算来解决优化和控制问题,这可能会损害其发展前景。将人的指导引入强化学习是提高学习性能的一种很有前途的方法,本文建立了一个基于人指导的强化学习框架。

所提出的是一种在强化学习过程中适应人指导的 优先经验重放(prioritized experience replay,PER) 机制,提高RL算法的效率和性能。为减轻人的繁重工作量,基于增量在线学习(incremental online learning)方法建立一个行为模型来模仿人。

作者设计了两个具有挑战性的自动驾驶任务来评估所提出的算法:一个是T-路口无保护左转,另一个是高速堵车。

最近强化学习引入深度神经网络提出了一些流行方法,如rainbow deep Q-learning, proximal policy optimization (PPO) 和 soft actor-critic (SAC), 能够处理高维环境表征和泛化等。

不过问题是环境和智体的交互比较低效率。为此引入人的指导,有3个途径:1)人的专家反馈,给行为打分(behavior score);2)人的干预,一般是reward shaping方法;3)人的演示,上下文中监督学习。

如图是本文方法的RL算法框架:

提出的基于人指导优先经验回放(PER)机制中,TDQA表示提出的优先计算方案,即Time Difference Q-advantage,数字1-4表示数据的流向顺序,动作信号的虚线表示该框架允许间歇性的人在环(human-in-the-loop )的指导。

强化学习基于离散MDP来定义交互过程,这里采用不带策略的AC(actor- critic)架构。策略函数(即 actor )最大化价值函数Q,Q来自累计的未来reward,基于一个Bellman价值函数(即 critic )。

这个Bellman 价值函数只对最优策略进行评估,而不管执行交互的策略。 因此,RL 将策略评估过程和策略行为解耦,这使智体以一种不带策略的方式更新状态。

作者用神经网络作为函数逼近来制定actor和 critic,然后可以通过损失函数实现目标。

传统上,缓冲区存储的经验服从均匀分布,用均匀随机抽样从缓冲区获取批量经验,用于 RL 训练。在有限经验重放机制中,经验受制于非均匀分布,实际优先级取决于TD误差(temporal difference error)。

较大的 TD误差表明,经验值得在更高程度上学习。 因此,基于 TD误差的优先经验回放(PER)机制可以提高 RL 的训练效率。

在强化学习的训练中,采用了两种人指导的行为方式:干预和演示。

干预 :人的参与者识别 RL 交互场景,并根据先验知识和推理能力确定是否应该进行指导。 如果人参与者决定进行干预,可以操纵设备从 RL 智体(部分或全部)获得控制权。 干预通常发生在 RL 智体做灾难性操作或陷入局部最优陷阱。 因此,RL 可以学会避免干预出现的不利情况。

演示 :当干预事件发生时,人的参与者会执行行动,产生相应的奖励信号和下一步状态。 生成的转换组(transition tuple)可以看作是一段演示数据,因为是由人策略而不是 RL 行为策略造成的。 RL 算法可以从演示中学习人的专家行为。

在 RL 智体与环境的标准交互中,RL 的行为策略会输出探索环境的动作。一旦动作被发送到环境,交互的转换组将被记录并存储到经验重放缓存(buffer)。 特别注意的是,来自人的策略和 RL 策略的操作存储在同一个缓冲区中。

由于先验知识和推理能力,人的演示通常比 RL 行为策略的大多数探索更重要。 因此,需要一种更有效的方法来加权缓存的专家演示。 文中采用一种 基于优点的度量( advantage-based measure  ,而不是传统的优先经验重放(PER) TD 误差,以建立优先专家演示重放机制。

除了TD 误差度量外,该优点度量(因为基于Q计算,故称为 QA ,即 Q-advantage )也评估应该在多大程度去检索特定的专家演示转换组。通过 RL 训练过程,RL 智体的能力发生变化,一个专家演示转换组的优先级也随之变化,这就产生了动态优先机制。整个机制称为 TDQA ,把两个度量组合成一个对人的指导测度。

优先机制引入了对价值函数期望估计的偏差,因为它改变了缓存中的经验分布。 有偏的价值网络对强化学习渐近性影响不大,但在某些情况下可能会影响成熟策略的稳定性和鲁棒性。 作为可选操作,可以通过引入重要性采样(importance-sampling )权重到价值网络的损失函数,来退火偏差。

下面讨论人的参与者在 RL 训练环的行为:人的参与者可以干预该过程获得控制权,并用专家行动替代 RL 智体行动;由于持续重复训练情节和未成熟的 RL 策略,人的参与者在训练过程中不断进行演示显得很乏味,因此间歇性干预(intermittent intervention)成为更可行的解决方案。 这种情况下,人参与者只会干预那些关键场景(灾难行为或陷入局部最优)拯救 RL 智体并延长训练时间。

这里采用reward shaping方法,可防止 RL 陷入那些人为干预的状态。 然而,它仅在一个人为干预事件的第一时间触发惩罚。 这背后的原理是,一旦人的参与者获得控制权,其专家演示会惯性地持续一段时间,这里只有最初的场景被确认为关键场景。

下面把上述组件集成在一起,即优先人在环( Prioritized Human-In-the-Loop,即PHIL ) RL。具体来说,通过基于人指导的actor- critic框架,配备优先专家演示重放和基于干预的reward shaping 机制来获得整体的人在环 (human-in-the-loop)RL 配置。 基于不带策略 RL 算法,即双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3 ),来实例化这个 PHIL 算法。 上述组件适用于各种 不带策略的 actor-critic RL 算法。

最后,整个PHIL-TD3算法总结如下所示:

结合前面的PHIL-RL,需要一个人的策略模型。该模型通过模仿实际人参与者的行为策略,来减轻人在环 RL 过程的工作量。

虽然人参与者进行 PHIL-RL 对提高性能最有帮助,但过度参与会使人疲劳。 作者训练了一个回归模型,与 RL 运行同时模仿人类策略,这个策略模型在必要时可以替代人。

分析一下RL 训练过程的人行为:人类干预间歇性地施加到环中,人演示逐渐补充到训练集(缓存)中;考虑到这一点,利用在线-和基于增量-的模仿学习算法(即Data Aggregation,DAgger)训练人策略模型,该算法不受离线大规模演示数据的收集影响。

注意:如果使用这个人策略模型与 PHIL 合作,模型的激活条件将根据特定环境手动定义。

下面讨论如何应用在自动驾驶场景:选择端到端问题的两个应用,即T-路口无保护左转和高速堵车。

如图是自动驾驶任务的环境配置: a 在 CARLA 建立的 T -路口设计的无保护左转场景; b 左转场景鸟瞰图,红色虚线表示左转轨迹; c 设计的在 CARLA 建立的高速公路拥堵场景; d 拥堵场景的鸟瞰图,其中红色虚线表示跟车轨迹。

T-路口无保护左转 :小路的自车试图左转并汇入主干道,路口没有交通信号引导车辆;假设自车的横向路径由其他技术规划,而纵向控制分配给 RL 智体;周围车辆以 [4, 6] m/s 范围随机的不同速度进行初始化,并由intelligent driver model (IDM) 控制执行车道保持行为;所有周围的驾驶员都具有侵略性,这意味着他们不会让路给自车;所有车辆的控制间隔设为 0.1 秒。

高速拥堵 :自车陷入严重拥堵并被其他车辆紧紧包围; 因此它试图缩小与领先车的差距,并以目标速度进行跟车;假设纵向控制由 IDM 完成,目标速度为 6m/s,而横向控制分配给 RL 智体;周围车辆初始化速度范围为 [4, 6] m/s,并由 IDM 控制以执行跟车行为;所有车辆的控制间隔设置为 0.1 秒;拥挤的周围车辆覆盖了车道标记,而自车道没有特定的前车,在这种情况下可能导致传统的横向规划方法无效。

下面定义RL的状态

RL的动作对两个场景是不同的:

T-路口左转

高速拥堵

奖励(reward)对两个场景也是不同的:

T-路口左转

高速

价值和策略函数的近似采用Deep CNN,如图所示:a)策略函数;b)价值函数

辅助函数:主要做车辆控制;当RL操纵方向盘时,纵向控制由IDM实现;当 RL 操纵踏板缝隙时,横向运动目标是通过比例积分 (PI) 控制器跟踪规划的航路点。

实验比较的基准算法是:

  • IA-TD3:Intervention Aided Reinforcement Learning (IARL)
  • HI-TD3:Human Intervention Reinforcement Learning (HIRL)
  • RD2-TD3:Recurrent Replay Distributed Demonstration-based DQN (R2D3)
  • PER-TD3:vanilla Prioritized experience replay (PER)

RL训练和推理的实验工作流如图(a-b)所示:

训练 硬件包括驾驶模拟器和高性能工作站。驾驶模拟器用于收集人驾驶数据以训练人的策略模型,工作站专门处理 RL 训练。 采用高保真自动驾驶仿真平台 CARLA来实现驾驶场景并生成RL-环境交互信息。

测试 硬件是机器人车辆。训练后的RL策略在车辆的计算平台上实现,通过无线网络与CARLA服务器进行通信。车载 RL 策略从 CARLA 接收状态信息并将其控制命令发回,远程操作完成自动驾驶任务。机器人车辆旨在测试 RL 策略在当前车载计算和通信情况下是否有效。

部分实验结果比较如下:

作者提出了一种算法 PHIL-TD3,旨在提高人在环 (human-in-the-loop )RL 的算法能力。 另外,引入了人的行为建模机制来减轻人参与者的工作量。 PHIL-TD3 解决两个具有挑战性的自动驾驶任务,即无保护T-路口左转和高速拥堵。

自动驾驶 数据 人工智能
上一篇:群星闪耀之时—WOT全球技术创新大会2021即将登场 下一篇:人工智能将对商业房地产带来哪些影响?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定

近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。

机器之心报道 ·  1天前
何恺明MAE大火后,想梳理下视觉Transformer?这篇梳理了100多个

在这篇论文中,Yang Liu 等几位研究者全面回顾了用于三个基本 CV 任务(分类、检测和分割)的 100 多个视觉 Transfomer。

机器之心报道 ·  1天前
抛弃热图回归,滑铁卢大学提出多人姿态估计新方法

近日,来自加拿大滑铁卢大学的研究者提出了一种全新的单阶段多人关键点和姿态检测方法 KAPAO。

机器之心编辑部 ·  1天前
2022年人工智能领域发展七大趋势

人工智能已成为人类有史以来最具革命性的技术之一。“人工智能是我们作为人类正在研究的最重要的技术之一。它对人类文明的影响将比火或电更深刻”。2020年1月,谷歌公司首席执行官桑达尔·皮查伊在瑞士达沃斯世界经济论坛上接受采访时如是说。

刘霞 ·  1天前
三分钟回顾,2021年11月无人机领域动态一览

今年11月,无人机行业便出现不少融资、推新等活动,接下来我们不妨一起来看一下吧!

智能制造网 ·  1天前
颠覆大规模预训练!清华杨植麟组提出全新NLP学习框架TLM,学习效率×100倍

近期,清华大学团队提出一种无需预训练的高效 NLP 学习框架,在仅使用了1% 的算力和1% 的训练语料的条件下,在众多 NLP 任务上实现了比肩甚至超越预训练模型的性能。

佚名 ·  1天前
三分钟回顾,2021年11月自动驾驶行业全动态一览

缺芯荒加疫情影响,今年以来自动驾驶行业发展被迫放缓,在此背景下,我们不妨不妨从融资、动态两方面,一起来看看复苏后的自动驾驶是如何极速狂飙的吧!

智能制造网 ·  1天前
2021大盘点,这十家AI初创公司有点“料”!

今年的AI初创公司榜单中,涵盖了用于构建AI语音助手的无代码网络平台,用于组织提升和员工技能再培训的AI人才智能平台,以及AI驱动的地理空间分析平台等等。

至顶网 ·  1天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载