自动驾驶存在不确定性的运动规划:基于强化学习的方法

作者: 自动驾驶的挑战和发展 2021-10-15 15:29:59

 

arXiv上2021年10月1日上传的论文“Motion Planning for Autonomous Vehicles in the Presence of Uncertainty Using Reinforcement Learning“,作者来自加拿大的华为诺亚实验室和魁北克大学。

存在不确定性的运动规划是开发自动驾驶车的主要挑战之一。本文专注于有限的视野、遮挡和传感距离限制导致的感知不确定性。通常是考虑遮挡区域或传感器感知范围之外的隐藏目标这个假设来解决这个问题,保证被动安全。然而,这可能导致保守的规划和昂贵的计算,特别是需要考虑大量假设目标存在时。

作者提出一种基于 强化学习 (RL) 的解决方案,对最坏情况结果通过优化处理不确定性。这种方法和传统的 RL 形成对比,传统 RL代理只是试图最大化平均预期奖励,是不安全和鲁棒的做法,而该方法建立在 分布RL (Distributional RL) 之上,其策略优化方法最大化随机结果的下限。这种修正方式可以应用于一系列 RL 算法。作为概念验证,这里应用于两种不同的 RL 算法, Soft Actor-Critic (SAC) 和 Deep Q-Network(DQN) 。

该方法针对两个具有挑战性的驾驶场景进行评估,即 遮挡情况下的行人穿越 和 有限视野的弯曲道路 。该算法用 SUMO 交通模拟器进行训练和评估。与传统的 RL 算法相比,所提出的方法用于生成更好的运动规划行为,与人类的驾驶风格相当。

RL方法主要有两种:基于价值和基于策略。本文分别讨论两种方法的不确定性问题。

分布RL (论文“ Distributional reinforcement learning with quantile regression ,” AA Conference on Artificial Intelligence, 2018)旨在估计每个状态-动作对可能结果的分布。 通过访问奖励分布,可以将一个状态的价值指定为其可能结果的最坏情况(下限)。

在RL中估计随机变量分布的一种有效方法是 分位数回归 ( Quantile Regression,QR) ,用 N 个分位数定义的分布,其第一个分位数是可能的奖励近似下限。这种方法, QR-DQN ,可以应用于任何包含价值函数的RL算法。 为此,需要增强价值函数,估计 N 个分位数,近似其分布。

用分位数回归(QR)来估计分位数价值时,回归过程会得到价值从最低到最高的排序。 因此,直接使用第一个价值作为下限估计。这个方法,称为 保守QR-DQN(CQR-DQN) 。

另一种 RL 算法 SAC(见论文“ Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor ,” ICLR 2018),遵循 Actor-Critic 框架。它 训练 Q -网络估计遵循策略的价值,并训练策略最大化 Q -值。 这里用分位数回归(QR)扩展 SAC,即 QR-SAC 。

实际上,Q -网络被扩展估计分位数。 然后类似于 QR-DQN,估计状态-动作对的 Q-值,即分位数第一个价值作为下限估计。依此,修改QR-DQN的分布Bellman方程,可以得到Critic的分布SAC Bellman更新规则。该方法,称为 保守QR-SAC(CQR-SAC) 。

在输入的感知中,OGM 提供有关遮挡区域的信息,道路网络的光栅图像,识别道路使用者可能存在的位置。 此外,希望运动规划器从 OGM 中感知目标,无需提供场景目标的任何明确信息。为解决这个运动规划问题,在 Frenet 框架搜索最佳轨迹。 这类似于 Frenet 框架的传统运动规划方法。

在 Frenet 框架中,沿着车道中心的轨迹变为直线轨迹, 简化了搜索空间。每个轨迹包括当前速度、当前横向偏距、最终速度和最终横向偏距。该轨迹建立之后,车辆速度和横向位置在预定的时间内按照一阶指数轨迹从初始值逐渐变化到最终值。

RL智体的输入包括 2 帧 (当前和之前时刻)OGM、道路网络的当前帧和当前速度,奖励定义为安全、舒适度和移动性等方面。

一个思路,从RL角度来看,如果智体动作被定义为轨迹,假设智体在未来状态的动作与当前状态的动作相同,那么评估轨迹等效于估计 Q-值。这样的算法分别记做 (CQR-DQN,CQR-SAC)价值版 。

另一个思路,在 RL 公式中未来状态的动作(轨迹)取决于智体策略,在知道未来动作可能与当前动作不同的情况下进行评估。 如果遵循智体策略,分配给状态-动作对的 Q-值是预期的奖励。这样的算法分别记做 (CQR-DQN,CQR-SAC)策略版 。

遵循和评估一个策略带来更大灵活性,并且运动规划器可能会找到更好的解决方案。如图所示说明在评估轨迹与策略时要评估的路径:

实验分两个场景。一是如图的行人过马路,有遮挡:

二是如图弯曲道路造成的遮挡:

实验采用SUMO模拟。比较的RL方法包括:SAC, QR-SAC, CQR-SAC策略版, CQR-SAC价值版, DQN, QR-DQN, CQR-DQN策略版, CQR-DQN价值版。

作为基准的规则方法有:固定fixed、幼稚naive和觉察 aware三种。

  • 固定法 限速行驶,不考虑其他目标。
  • 幼稚法 忽略遮挡,限速行驶,除非在其行驶路径看到一个目标。 这种情况下,它会以恒定减速度刹车,最高可达 -4 [m/s2],结果是在目标前停住。
  • 觉察法 采用知道遮挡的 IADSR 算法(论文“ What lies in the shadows? safe and computation-aware motion planning for autonomous vehicles using intent-aware dynamic shadow regions ,” ICRA, 2019)。 假设一个目标存在于遮挡区域,如果一个目标从遮挡区域出现,那么它刹车减速(以 -4 [m/s2] 减速度)到完全停止而不会发生碰撞。 此外,觉察法还会远离遮挡机动以增加遮挡附近的视野。

实验结果比较如下:其中下标Pai是策略版,下标Tao是价值版。

这项工作针对由遮挡引起不确定性的运动规划问题,讨论在实际 RL 问题中,采用最大化最坏情况奖励的策略如何更好地匹配所需行为,利用分布RL 最大化最坏情况奖励而不是平均奖励。用分位数回归(QR)扩展 SAC 和 DQN,找到优化最坏情况的动作。

用 SUMO 模拟环境设计和评估一组遮挡情况下的自动驾驶运动规划器。提出基于 CQR-SAC和 CQR-DQN 的运动规划器,避免与被遮挡视图发生碰撞,无需微调奖励函数。

未来的工作想应用于更复杂和多样化的环境,包括交叉路口、环形交叉路口以及包含移动车辆的场景。工作期望是,自车智体可以从其他车辆的行为隐式地推断出遮挡区域的状态。

自动驾驶 数据 人工智能
上一篇:中英文超大AI模型世界纪录产生,大模型竞赛新阶段来了 下一篇:培养产业高端复合型AI人才 AICA首席AI架构师培养计划第五期开启
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定

近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。

机器之心报道 ·  1天前
何恺明MAE大火后,想梳理下视觉Transformer?这篇梳理了100多个

在这篇论文中,Yang Liu 等几位研究者全面回顾了用于三个基本 CV 任务(分类、检测和分割)的 100 多个视觉 Transfomer。

机器之心报道 ·  1天前
抛弃热图回归,滑铁卢大学提出多人姿态估计新方法

近日,来自加拿大滑铁卢大学的研究者提出了一种全新的单阶段多人关键点和姿态检测方法 KAPAO。

机器之心编辑部 ·  1天前
2022年人工智能领域发展七大趋势

人工智能已成为人类有史以来最具革命性的技术之一。“人工智能是我们作为人类正在研究的最重要的技术之一。它对人类文明的影响将比火或电更深刻”。2020年1月,谷歌公司首席执行官桑达尔·皮查伊在瑞士达沃斯世界经济论坛上接受采访时如是说。

刘霞 ·  1天前
三分钟回顾,2021年11月无人机领域动态一览

今年11月,无人机行业便出现不少融资、推新等活动,接下来我们不妨一起来看一下吧!

智能制造网 ·  1天前
颠覆大规模预训练!清华杨植麟组提出全新NLP学习框架TLM,学习效率×100倍

近期,清华大学团队提出一种无需预训练的高效 NLP 学习框架,在仅使用了1% 的算力和1% 的训练语料的条件下,在众多 NLP 任务上实现了比肩甚至超越预训练模型的性能。

佚名 ·  1天前
三分钟回顾,2021年11月自动驾驶行业全动态一览

缺芯荒加疫情影响,今年以来自动驾驶行业发展被迫放缓,在此背景下,我们不妨不妨从融资、动态两方面,一起来看看复苏后的自动驾驶是如何极速狂飙的吧!

智能制造网 ·  1天前
2021大盘点,这十家AI初创公司有点“料”!

今年的AI初创公司榜单中,涵盖了用于构建AI语音助手的无代码网络平台,用于组织提升和员工技能再培训的AI人才智能平台,以及AI驱动的地理空间分析平台等等。

至顶网 ·  1天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载