AI时代的GitHub,这个陆奇看好的方向,终于有人做了

作者: 允中 2021-01-11 10:34:59

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

面向AI时代生存发展,什么最重要?

数据、数据,还是数据。

特别是中小企业、转型中的广大传统企业,数据、优质数据,寻找并管理数据,更是刚需中的刚需——就像互联网开发时代里对代码共享和管理的需求那样。

所以如果有面向AI时代打造一个数据方向的GitHub,是不是契合刚需痛点?

这不,还真有AI创业团队这么做了。

而且看好的人中,还有个叫陆奇的big name.

AI时代的GitHub,这个陆奇看好的方向,终于有人做了

GitHub for Data

出品者,格物钛

一家AI数据托管和数据协作SaaS提供商,创始团队也都是一线技术工程师,深谙当前痛点所在。

一方面,AI数据准备与工程任务所耗费的时间占到了大多数AI项目的80%以上。在AI训练中,如果没有足够的高质量训练和测试数据集,则很难训练出高质量的AI模型。

因此,面对AI开发过程中的高额隐性成本,提供高质量、场景化的真值数据,已经成为AI产业链的核心诉求之一。

AI时代的GitHub,这个陆奇看好的方向,终于有人做了

另一方面,人工智能依赖大量的数据作为“思考”和“决策”的基础。以往企业对数据开放的态度普遍较为保守敏感,然而伴随着各类AI应用场景落地的技术难点逐渐浮出水面,以无人驾驶领域为例,许多驾驶场景具有稀缺性,仅凭一家之力构建包含所有的交通场景的数据集将消耗巨额的数据采集成本,并且很难在短时间内一步到位。

于是格物钛的目标,就是希望可以加速打破人为壁垒,让更多优质、庞大数据用开源共享的方式,实现合作共赢。

AI时代的GitHub,这个陆奇看好的方向,终于有人做了

就像GitHub在代码领域发挥的基础设施作用一样,AI数据领域,现在紧缺这样的基础设施。

而且随着AI落地深入,另一个现状和事实愈加清晰明确:

AI落地的现实世界中,只有一小部分机器学习系统由机器学习代码组成,但其所需的周边配套基础设施,庞大而复杂。

其中,数据、数据集,就是最关键的一环。如果进一步聚焦于国内,还会发现适配AI项目落地的真值数据,更是稀缺。

AI时代的GitHub,这个陆奇看好的方向,终于有人做了

有统计显示,如今国内有近60万AI开发者,但面临的现状是:

  • 开源数据集普遍海外化,匹配性有限;
  • 下载解析难度大,效率低;
  • 数据参差不齐,质量难保证;
  • 最核心的是针对中国本土化的数据匮乏。

这也进一步造成70%以上企业,数据共享难、数据版本管理混乱、数据可视化标签转换难,缺乏非结构化数据专业管理的共享协作平台。

所以摆着格物钛眼前的,只剩下一个问题:

How?

AI时代的GitHub,这个陆奇看好的方向,终于有人做了

寻集令

顾名思义,寻找数据集。

分两步走。

第一步,跟AI业内先锋公司合作。

共同打造集合自动驾驶、互联网泛娱乐、新零售、智慧城市和在线教育等AI商业落地最迫切的AI公开数据集生态联盟

俗话说就是开个头、打个样,看到价值,就会有更多企业和组织加入。

在寻集令发布会上,元戎启行、新石器、速腾聚创、觉非、爱驰汽车,酷家乐等等都“站”台支持。

AI时代的GitHub,这个陆奇看好的方向,终于有人做了

格物钛方面称,星星之火可以燎原,希望从寻集令第一枪开始,打造中国最具规模化的非结构化数据集平台。

类型上,全面覆盖图像、视频、语音和文本类型。

资源上,兼具公开数据集以及AI头部企业数据集资源。

领域上,则从商业落地最紧迫的自动驾驶、互联网泛娱乐、智慧工业、新零售、线上教育和直播等开始。

此外,希望这个数据集平台,可以成为GitHub一样受开发者欢迎的社区,并且提供更多极致的数据集管理体验,包括安全等等题中之义的要求。

实际上,虽然国内一直缺乏这样的数据集开源平台,但并不意味着业内没有尝试。

之前创新工场联合国内头部AI公司发起AI Challenger大赛,百度、腾讯、华为、字节跳动等公司也都有数据集为核心资源的挑战赛。

只是始终,缺乏一个“全职”展开这件事的人。

AI时代的GitHub,这个陆奇看好的方向,终于有人做了

而数据集之重要,AI从业者都应该很清楚。

比如假设没有ImageNet,那这波AI复兴应该还不会如此狂飙突进,是李飞飞李佳等华人科学家在数据集上的努力,加速催化了浪潮复兴。

另外,数据集也能推动产学研更加紧密地合作,资源如果能更方便被利用,或许就会有更多力量加入其中,也就更有机会帮助实现该领域算法的提升和优化。

说白了,公开共享数据集,就像是发起了一场打擂,产学研领域的各方高手,既是自我检测算法,也能不断让数据集所在场景,得到更高更强的推进。

所以从这个角度,或许也不难想见,为啥能得到陆奇的支持。

在奇绩创坛的Demo Day上,这个项目就被重点介绍过,而且陆奇还亲自“站”台为寻集令作了致辞。

总而言之,好事一件,且终于有人做了。

AI时代的GitHub,这个陆奇看好的方向,终于有人做了

谁做的?

最后也介绍下格物钛背后的创始团队,核心成员都是技术出身。

创始人及CEO崔运凯,Uber无人驾驶团队早期员工,长期从事人工智能研究和产品化, 经历Uber无人驾驶从50到1500人的成长。Uber无人驾驶部门最年轻的Tech Lead,第一个华人Tech Lead。

其他两位联合创始人,陈麒任,Snapchat早期员工,聊天系统、游戏系统的核心开发者和技术负责人。有多年分布式系统软件开发经验。主导开发snap游戏平台,是snap的未来重要盈利方式。

王广宇,阿里巴巴本地生活服务公司(饿了么),高级产品专家。携程度假事业部当地向导平台产品负责人,完成平台从0到1,从1到100的搭建,实现了平台的年3倍增长,为公司带来过亿的营收。

AI GitHub 人工智能
上一篇:谷歌大脑最新研究:AutoML方式自动学习Dropout模式 下一篇:人工智能的真正潜力
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载