项目已开源,微软研究院用迁移学习训练自主无人机,可用于真实环境

作者: skura 2020-03-27 09:29:10

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

项目已开源,微软研究院用迁移学习训练自主无人机,可用于真实环境

图片来源:https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

「感知-动作」回路是我们日常活动的核心。在潜意识中,我们的大脑利用感知输入,实时触发特定的运动动作,形成一种持续的活动,如运动、看电视等各种活动都是这样形成的。

在人工智能的背景下,「感知-动作」回路是诸如自动驾驶汽车等自主系统的基石。虽然强化学习等学科在这个领域已经取得了一定进展,但目前,自主系统在直接根据视觉数据做出决策方面仍远不及人类。

最近,微软的人工智能研究人员发表了一篇论文,提出了一种迁移学习方法,用于在模拟环境中学习感知行为策略,并将这些知识应用于无人机。

根据感知输入采取哪些行动,与其说是一个理论问题,不如说是一个实践问题。近年来,强化学习和模仿学习等方法在这一领域显示出巨大的潜力,但它们仍然受到难以大量收集标记真实世界数据的限制。另一方面,模拟数据很容易生成,但在不同的现实场景中通常呈现出不安全的行为。

能够在模拟环境中学习策略并将知识外推到真实环境中仍然是自主系统的主要挑战之一。为了推进这一领域的研究,人工智能社区为现实世界的自主系统建立了许多基准。其中最具挑战性的是第一人称视角的无人机比赛。

FPV 挑战

在第一人称视角(FPV)完成的比赛中,专业飞行员能够计划、控制一个四旋翼机,使其具有很高的敏捷性,但却没有考虑安全性。微软的研究团队试图建立一个自主代理,可以在 FPV 比赛中控制无人机。

从深度学习的角度来看,导航任务中最大的挑战之一是输入图像数据的高维性和可变性。想要成功地解决这个任务,就需要一个对视觉外观不变性和对仿真与现实之间差异的鲁棒表示。从这个角度来看,能够在 FPV 比赛等环境中操作的自主代理需要接受模拟数据的训练,这些模拟数据学习可在真实环境中使用的策略。

许多这类研究,如 FPV 比赛,都集中在增强无人机的各种传感器,可以帮助建立周围环境的模型。然而,微软的研究团队旨在创造一种以人脑功能为灵感的计算结构,将视觉信息直接映射到正确的控制动作上。

为了证明这一点,微软研究院使用了一个非常基本的带有前置摄像头的四旋翼机。所有的处理都是在 Nvidia TX2 计算机上完成的,它有 6 个 CPU 核和一个集成的 GPU。现成的英特尔 T265 跟踪相机提供里程计,图像处理使用 Tensorflow 框架。图像传感器是一个 USB 摄像头,有 830 个水平视场,原始图像被缩小到 128 x 72 的尺寸。

项目已开源,微软研究院用迁移学习训练自主无人机,可用于真实环境

图片来源:https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

代理

微软研究小组的目标是在模拟环境中训练一个自主代理,并将所学的策略应用到现实世界的 FPV 比赛中。对于模拟数据,微软依靠 AirSim 生成,这是一个用于无人机、汽车和其他交通工具的高保真模拟器。AirSim 生成的数据在训练阶段使用,然后在真实世界中部署学习到的策略,而无需任何修改。

项目已开源,微软研究院用迁移学习训练自主无人机,可用于真实环境

图片来源:https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

为了弥合模拟现实的差距,微软的研究依赖于交叉模式学习,即使用有标签和无标签的模拟数据以及真实世界的数据集。其思想是在高维模拟数据中进行训练,并学习一种低维策略表示方法,该方法可以有效地用于实际场景中。为了实现这一目标,微软研究院利用了跨模态变分自动编码器(CM-VAE)框架,该框架对每个数据模态使用一个编码器-解码器对,同时将所有输入和输出压缩到一个潜在空间。该方法允许将有标记和无标记的数据模式结合到潜在变量的训练过程中。

将此技术应用于 FPV 环境需要不同的数据模式。第一种数据模式考虑原始的未标记传感器输入(FPV 图像),而第二种特征状态信息直接与手头的任务相关。在无人机竞赛的情况下,第二模态对应于在无人机的坐标帧中定义的下一个门的相对姿态。每个数据模式都由一个编码器-解码器对使用 CM-VAE 框架进行处理,该框架允许学习低维策略。

自主 FPV 比赛代理的体系结构由两个主要步骤组成。第一步的重点是学习一个潜在的状态表示,而第二步的目标是学习一个控制策略,以操作这个潜在的表示。第一个组件或控制系统架构接收单眼相机图像作为输入,并将下一个可见门的相对姿态以及背景特征编码为低维潜在表示。这种潜在的表示随后被输入到控制网络中,控制网络输出一个速度指令,然后由无人机的飞行控制器转换成执行器指令。

项目已开源,微软研究院用迁移学习训练自主无人机,可用于真实环境

图片来源:https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

降维是微软研究方法的重要组成部分。在 FPV 比赛中,有效的降维技术应该是平滑、连续、一致的,并且对模拟图像和真实图像中的视觉信息差异具有鲁棒性。为了实现这一目标,该体系结构采用了一种 CM-VAE 方法,其中每个数据样本被编码成一个独立的潜在空间,该潜在空间可以被解码回图像,或者转换成另一种数据形式,例如门相对于无人机的姿态。

项目已开源,微软研究院用迁移学习训练自主无人机,可用于真实环境

图片来源:https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

由此产生的体系结构能够将基于 27468 个变量的高维表示减少到最基本的 10 个变量。尽管只使用 10 个变量对图像进行编码,但解码后的图像提供了无人机可以看到的前方物体的丰富描述,包括所有可能的门的尺寸和位置,以及不同的背景信息。

项目已开源,微软研究院用迁移学习训练自主无人机,可用于真实环境

图片来源:https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

微软研究院在各种 FPV 比赛环境中测试了这种自主无人机,其中包括一些具有极端视觉挑战性的环境。比如在地板上有与大门色调相同的红色条纹的室内,或者在大雪环境中。

另外,还有相关视频重点介绍了自主无人机如何使用低维图像表示完成所有挑战。如果你感兴趣,可以打开这个视频:https://youtu.be/AxE7qGKJWaw 。

尽管微软的研究工作是专门针对 FPV 比赛场景的,但这些原理可以应用到许多其他的感知动作场景中。这类技术有助于加速可在模拟环境中训练的自主代理的开发。为了激励这项研究,微软在 GitHub 中开源了 FPV 代理的代码。

GitHub 项目网址:https://github.com/microsoft/AirSim-Drone-Racing-VAE-Imitation

via:https://towardsdatascience.com/microsoft-research-uses-transfer-learning-to-train-real-world-autonomous-drones-53b3f941768f

微软 开源 无人机
上一篇:算法一看就懂之「 选择排序 」 下一篇:哈工大造出柔性机器人,人造肌肉能和象鼻一样灵活了!
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

Alphabet的Wing公司将其无人机送货服务带到达拉斯·沃斯堡地区

Google母公司Alphabet的子公司Wing正在将其无人机送货服务带到德克萨斯州的城市,这是其第一个人口稠密的市场。

cnBeta ·  1天前
持续降温不用愁,无人机护卫电网供温暖

随着持续的降温来袭,秋衣秋裤已经无法御寒,电暖器、暖风机、电热毯、空调等取暖设备纷纷上阵。而各种取暖设备的陆续使用,也使得城市用电迎来高峰,相应省市的供电压力不断攀升。

智能制造网 ·  2天前
AI大牛周明打造轻量“孟子模型”开源!靠10亿参数冲上CLUE榜第三

只用10亿参数就杀进中文自然语言理解CLUE榜单前三的孟子模型,现在开源了!

明敏 ·  2天前
人工智能为无人机“护航”

前不久的热门新闻,郑州市数百架无人机变换成各种造型,为人们带来充满科技时尚的表演。然而正在演出的无人机群突发故障,多架无人机从高空坠落,所幸未造成人员受伤。当时有传闻称(无人机表演公司)竞争对手恶意干扰导致此次事件。

AI时代前沿 ·  4天前
高速无人机独立穿越森林,全程自己规划路线,时速高达40公里

随着传感器功能和计算机能力的提升,无人机在更复杂环境中的飞行速度,很快能超过40公里/小时。

兴坤 ·  2021-10-15 10:22:37
大模型高效释放生产性能,HuggingFace开源Transformer扩展优化库

近日,Hugging Face 开源了一个新的程序包「Optimum」,旨在为 Transformer 的工业生产提供最佳的工具包,使得可以在特定的硬件上以最高的效率训练和运行模型。

机器之心 ·  2021-10-13 17:21:13
突破 100 种,微软翻译新增对 12 种语言/方言支持,包括藏语、维吾尔语...

IT之家 10 月 12 日消息,微软翻译今天宣布支持 12 种新的语言和方言。有了这项支持,微软翻译现在总共支持 103 种语言,覆盖了世界人口的 72%。有了这个版本,微软翻译服务可以将文本和文件翻译成全世界 56.6 亿人所使用的本土语言。

佚名 ·  2021-10-12 16:29:16
群星闪耀之时—WOT全球技术创新大会2021即将登场

CTO训练营 ·  2021-10-12 10:39:25
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载