数据集查找神器!100个大型机器学习数据集都汇总在这了

作者: 铜灵 2019-03-21 16:27:21

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

想自己构建机器学习模型,没想到首先就卡在了***步。

网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:麻烦

如何才能高效找到机器学习领域规模***质量***的数据集?

为了响应广大网友的呼声,网友u/UpdraftDev将全网***的机器学习数据集整理汇集,并对这些数据集进行了分类和介绍。

想找心仪数据集,现在一目了然。网友纷纷表示:很满意!

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

太方便了

这个网站上,共收集到了100多个业界***型的数据集。

根据任务类别,这些数据集中又分为三大类:计算机视觉(CV)、自然语言处理(NLP)和音频数据集。

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

在网站主页,一眼扫过去可以看到数据集名称、发布时间、简要介绍、开源协议、相关论文等重要信息,查找起来非常方便。

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

点进去就直接跳转到网站主页了,轻轻一点,免去了你挨个搜索每个数据集地址的麻烦。

神仙数据集

清单中列举的数据集中,不乏一些有趣的业界知名数据集,在很多的机器学习任务中,这些数据集都是最实用、出现场次***的那一批。

都是哪些神仙数据集?

计算机视觉领域

先来看一下CV领域,汇总中收纳了70个大型数据集,很多经常遇到的经典数据集都在里面。

看看你能认出几个:

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

其中,包含了英伟达去年12月开源的人脸数据集FFHQ(Flickr-Faces-HQ),内含7万张1024×1024分辨率的高清人脸大图。

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

它提供了高度多样化、高质量的人脸数据,并且涵盖了比现有高分辨率数据集(如CelebA-HQ)更多的变化,比如更多佩戴眼镜、帽子的照片。

也有一些熟悉的中国企业身影。

比如百度开放的自动驾驶数据集ApolloScape,包括感知、仿真场景、路网数据等数十万帧逐像素语义分割标注的高分辨率图像数据。

数据集采用了逐像素语义分割标注的方式,是环境复杂、标注精准、数据量大的自动驾驶数据集。

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

腾讯开源的Tencent ML-Images项目,其多标签图像数据集ML-Images包含了1800万图像和1.1万多种常见物体类别,比谷歌开源的Open Images数据集还丰富不少。

当然,像ImageNet、KITTI、COCO、Cityscapes等这样的老牌经典数据集也都在里面。

自然语言处理(NLP)领域

NLP领域目前有26个数据集:

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

斯坦福大学NLP组的SQuAD 2.0你得了解一下,和一代相比,2.0版在增加对抗性问题的同时,也新增了一项“判断一个问题能否根据提供的阅读文本作答”的任务。

SQuAD 2.0中不仅包含十万个问题-答案对,还有超过五万个由人类众包者对抗性地设计的无法回答的问题。

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

CoQA数据集也是斯坦福开发的对话数据集,包含来自8k组对话的127k个带有答案的问题。这些对话涉及 7 个不同领域,每组对话的平均长度为15轮,每一轮对话都由问题和回答组成。

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

此外,DeepMind的Q&A问答数据集、微软的MS MARCO机器阅读理解数据集、三名中国学生推出的HotpotQA新型问答数据集等,都可以在这份清单中一键直达。

音频数据集

还有四个大型音频数据集:

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

谷歌的大规模音频数据集AudioSet,包含632类的音频类别以及2084320 条人工标记的每段10秒的声音剪辑片段,覆盖大范围人类与动物、乐器与音乐流派、日常环境声音。

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

谷歌NSynth数据集,收录了从1000种乐器中采集的大量注释的音符,包括不同的音高和速率,比同类的公共数据集大了一个数量级。

初创公司Mozilla公布的Common Voice数据集,内含2万名英语志愿者500小时、40万份录音,语料库也在不断扩充中。

数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

还有LibriSpeech ASR corpus语音数据集,包括1000小时的英文发音和对应文字,数据来自LibriVox项目的有声读物,是一个大型的语料数据库。

数据 开发 机器学习
上一篇:联想阿木:重新定义场景智能时代新 “三大件” 下一篇:CB Insight发布AI行业25大趋势:中国人脸识别、无人商店发展迅速
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

为什么AI没能让人类失业?

我们听了这么久有关「AI取代设计师」、「AI取代写作者」、「AI取代画家」、「AI取代司机」……的论调。然而时至今日,我们发现实际上,目前还没有一个职业「真正」被取代。

佚名 ·  1天前
轻松构建 PyTorch 生成对抗网络(GAN)

生成对抗网络(GAN)是一种生成式机器学习模型,它被广泛应用于广告、游戏、娱乐、媒体、制药等行业,可以用来创造虚构的人物、场景,模拟人脸老化,图像风格变换,以及产生化学分子式等等。

佚名 ·  1天前
新AI让教师能够快速开发智能辅导系统

通过使用一种采用人工智能的新方法,教师可以通过演示解决某个主题中的问题的几种方法来教计算机……

佚名 ·  1天前
AI又一次打败了人类:仅凭一张自拍照片辨别个人性格

一项新研究表明,人工智能(AI)可在“仅凭一张自拍照片辨别个人性格”这件事上再次打败人类。与人类相比,机器能够更好地识别一种特征,通过分析人物面孔来确定物种不同的性格特质。

佚名 ·  2天前
终结重复工作!教你30分钟创建自己的深度学习机器

建立一个深度学习环境是一件很重要的事情。本文讲述使用深度学习 CommunityAMI、TMUX和 Tunneling在EC2为Jupyter Notebooks创建一个新的深度学习服务器。

读芯术 ·  2天前
如何用机器学习模型,为十几亿数据预测性别

基于用户画像进行广告投放,是优化投放效果、实现精准营销的基础;而人口属性中的性别、年龄等标签,又是用户画像中的基础信息。那该如何尽量准确的为数据打上这些标签?

TalkingData ·  2天前
教你轻松选择合适的机器学习算法!

机器学习方面没有免费午餐。因此,确定使用哪种算法取决于许多因素:面临的问题类型和预期的输出类型等。本文介绍了为数据集探究合适的机器学习方法时要考虑的几个因素。

布加迪 ·  2天前
画图太丑拿不出手?有人做了套机器学习专用画图模板,还有暗黑模式

论文、博客写好了,里面的图可怎么画?对于很多研究人员和开发者来说,内容的「可视化」是一个大问题。如果从头开始画,配色、空间布局都很伤脑筋,而且画丑了也拿不出手,要是有模板可以套就好了。

张倩、魔王 ·  3天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载