谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

作者: 萧箫 2020-11-13 14:56:24

  本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

见过3D物体数据集,见过会动的3D物体数据集吗?

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

每段动态视频都以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云。

这是谷歌的开源3D物体数据集Objectron,包含15000份短视频样本,以及从五个大洲、十个国家里收集来的400多万张带注释的图像。

谷歌认为,3D目标理解领域,缺少像2D中的ImageNet这样的大型数据集,而Objectron数据集能在一定程度上解决这个问题。

数据集一经推出,1.6k网友点赞。

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

有网友调侃,谷歌恰好在自己想“谷歌”这类数据集的时候,把它发了出来。

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

也有团队前成员表示,很高兴看到这样的数据集和模型,给AR带来进步的可能。

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

除此之外,谷歌还公布了用Objectron数据集训练的针对鞋子、椅子、杯子和相机4种类别的3D目标检测模型。

来看看这个数据集包含什么,以及谷歌提供的3D目标检测方案吧~(项目地址见文末)

9类物体,对AR挺友好

目前,这个数据集中包含的3D物体样本,包括自行车,书籍,瓶子,照相机,麦片盒子,椅子,杯子,笔记本电脑和鞋子。

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

当然,这个数据集,绝不仅仅只是一些以物体为中心拍摄的视频和图像,它具有如下特性:

注释标签(3D目标立体边界框)

用于AR数据的数据(相机位姿、稀疏点云、二维表面)

数据预处理(图像格式为tf.example,视频格式为SequenceExample)

支持通过脚本运行3D IoU指标的评估

支持通过脚本实现Tensorflow、PyTorch、JAX的数据加载及可视化,包含“Hello World”样例

支持Apache Beam,用于处理谷歌云(Google Cloud)基础架构上的数据集

所有可用样本的索引,包括训练/测试部分,便于下载

图像部分的画风,基本是这样的,也标注得非常详细:

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

而在视频中,不仅有从各个角度拍摄的、以目标为中心的片段(从左到右、从下到上):

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

也有不同数量的视频类型(一个目标、或者两个以上的目标):

谷歌希望通过发布这个数据集,让研究界能够进一步突破3D目标理解领域,以及相关的如无监督学习等方向的研究应用。

怎么用?谷歌“以身示范”

拿到数据集的第一刻,并不知道它是否好用,而且总感觉有点无从下手?

别担心,这个数据集的训练效果,谷歌已经替我们试过了。

看起来还不错:

此外,谷歌将训练好的3D目标检测模型,也一并给了出来。(传送见文末)

算法主要包括两部分,第一部分是Tensorflow的2D目标检测模型,用来“发现物体的位置”;

第二部分则进行图像裁剪,来估计3D物体的边界框(同时计算目标下一帧的2D裁剪,因此不需要运行每个帧),整体结构如下图:

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

在模型的评估上,谷歌采用了Sutherland-Hodgman多边形裁剪算法,来计算两个立体边界框的交点,并计算出两个立方体的相交体积,最终计算出3D目标检测模型的IoU

简单来说,两个立方体重叠体积越大,3D目标检测模型效果就越好。

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

这个模型是谷歌推出的MediaPipe中的一个部分,后者是一个开源的跨平台框架,用于构建pipeline,以处理不同形式的感知数据。

它推出的MediaPipe Objectron实时3D目标检测模型,用移动设备(手机)就能进行目标实时检测。

看,(他们玩得多欢快)实时目标检测的效果还不错:

其他部分3D数据集

除了谷歌推出的数据集以外,此前视觉3D目标领域,也有许多类型不同的数据集,每个数据集都有自己的特点。

例如斯坦福大学等提出的ScanNetV2,是个室内场景数据集,而ScanNet则是个RGB-D视频数据集,一共有21个目标类,一共1513个采集场景数据,可做语义分割和目标检测任务。

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

而目前在自动驾驶领域非常热门的KITTI数据集,也是一个3D数据集,是目前最大的自动驾驶场景下计算机视觉的算法评测数据集,包含市区、乡村和高速公路等场景采集的真实图像数据。

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

此外,还有Waymo、SemanticKITTI、H3D等等数据集,也都用在不同的场景中。(例如SemanticKITTI,通常被专门用于自动驾驶的3D语义分割)

谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

无论是视频还是图像,这些数据集的单个样本基本包含多个目标,使用场景上也与谷歌的Objectron有所不同。

感兴趣的小伙伴们,可以通过下方传送门,浏览谷歌最新的3D目标检测数据集,以及相关模型~

Objectron数据集传送门:
https://github.com/google-research-datasets/Objectron/

针对4种物体的3D目标检测模型:
https://google.github.io/mediapipe/solutions/objectron

AI 数据 谷歌
上一篇:关于感知器的故事:机器学习是如何发展到如今这一程度的呢? 下一篇:不容“AI算命”为祸网络
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

就算戴上口罩,AI也知道你在说啥

现在,检测面部肌肉变化的AI来了,只要你动了嘴,哪怕没出声,它也能知道你在说什么。

萧箫 ·  1天前
AI生成肖像画,精细到毛发!北大校友最新研究收割2.8k星标

这款AI工具叫U∧2-Net(U Square Net),最近火到不行!不仅登上了GitHub热榜,收割了2.8k星标,还被顶会ICPR 2020 选中。

贝爽 ·  1天前
人工智能虚拟更衣室 零售商新的主流营销利器

COVID-19改变了世界各地人们日常行为的方式,在实体零售中,没有比这更敏锐的感觉了。几十年来,零售商一直在尝试各种客户参与策略,以吸引人们,让他们浏览样本并留心。但是大流行使几乎所有这些人都感到冒险和不愉快。试穿衣服,珠宝,化妆品和其他可穿戴产品的愿望使人身安全胜出。

AI国际站 ·  1天前
突破AI和机器理解的界限,牛津博士论文学习重建和分割3D物体

让机器拥有像人类一样感知 3D 物体和环境的能力,是人工智能领域的一项重要课题。

Bo Yang ·  3天前
祖传人像玩家,如何把AI秀出新高度

这个由感知人像引擎和画质增强引擎组成的系统,不仅能让照片里的人看起来更好看,画面质感也能得到质的提升。

萧箫 ·  3天前
微软开源的 AI 工具,让旧照片焕发新生

在 GitHub 热点趋势Vol.046 中,HG 介绍过一个微软开源的 AI 工具——Bringing-Old-Photos-Back-to-Life

Ziyu Wan ·  3天前
中国 AI 专利申请已超美国!我国 5G 最新成绩:技术世界领先

此前,世界互联网大会已经举办了六届,今年的形式有所改变——取消举办第七届世界互联网大会,改为以世界互联网大会组委会的名义举办上述论坛,虽然规模比往年有所缩小,但也强调小而精。

李帅飞 ·  4天前
人工智能改变商业房地产领域的5种方式

人工智能是一种功能强大的工具,具有通过智能自动化改变房地产的潜力,包括经纪人如何管理清单,跟踪数据以及与买家互动。

vondser ·  2020-11-23 09:32:10
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载