随着过去几年自动驾驶“风口”兴起,越来越多的资本与研发力量投入到自动驾驶领域。

相关机构预测,半自动驾驶和全自动驾驶汽车未来几十年的市场潜力巨大。到2035年,仅中国就将有约860万辆自动驾驶汽车,其中约340万辆为全自动无人驾驶,520万辆为半自动驾驶。

不过,自动驾驶是一个相当复杂的工程系统,需要众多技术的融合与精度配合,且不可能依赖资本的力量在短时间内迅速爆发,自动驾驶商业化还面临方方面面的挑战。所以一直以来,自动驾驶给人的感觉都是“热度很高但距离很远”。

自动驾驶落地难的原因有很多,其中一个核心因素是自动驾驶感知系统的不完善。

在自动驾驶技术中,感知是最基础的部分,没有对车辆周围三维环境的定量感知,就犹如人没有了眼睛,无人驾驶的决策系统就无法正常工作。

为了安全与准确地感知,自动驾驶系统使用了多种传感器,其中可以被广义地划分为“视觉”的有超声波雷达、毫米波雷达、激光雷达,以及摄像头。

与其他应用场景相比,自动驾驶的应用场景相对复杂,尤其面对复杂多变的路况环境,感知技术的突破不能依赖算法或技术的革新来解决。

在这种情况下,经过人工标注的带有丰富语义信息的标注数据,可以使算法更好地理解和识别视觉摄像头、激光雷达、毫米波雷达等传感器所传输的画面信息和障碍物信息,全面提升自动驾驶汽车的感知能力。

自动驾驶标注场景(来源:曼孚科技)

不过,并不是所有的标注数据都能被自动驾驶汽车所用,从理论层面上说,数据的标注结果越精准,对于算法的运算结果越好。所以,大规模精准的标注数据集才会对自动驾驶商业化进程产生实质性的助推作用。

百度在开放ApolloScape时,也谈到了这一点:

“虽然国外有不少可供选择的数据集,但是国内的路况复杂程度显然与国外不同。虽然我们也经常可以听到一些企业宣布其自动驾驶汽车开始公测,但大多数测试都是在较简单的路况下进行的,在复杂路况下,自动驾驶还远远达不到上路标准,这其中的很多问题仅依靠技术手段很难解决,需要大规模精准数据集的帮助,这也是百度决定开放ApolloScape的初衷。百度希望通过公开的方式,吸引更多企业和开发者利用并补充数据集,进而提高自动驾驶的感知能力。”

从以上角度来看,高质量的标注数据集已成为助力自动驾驶汽车大规模商业化落地应用的关键因素之一。

不过,目前的数据标注行业在提供高质量标注数据集的能力上还有所欠缺。

相关数据显示,当下数据标注行业单次交付达标率低于50%,三次内交付达标率低于90%,远远不能满足AI企业的需求。

这一方面与缺乏高质量的数据标注工具有关,另一方面也与行业过度依赖人力有关。数据标注行业内部存在的问题已在很大程度上影响到诸多AI项目的商业化应用进程。

从长远角度来看,随着人工智能与各个产业结合得愈加紧密,精细化,场景化以及更多维度的数据对AI的产业化落地变得越来越重要,数据标注行业的变革需求已迫在眉睫,高质量的数据才是行业真正的未来。