从文本处理到自动驾驶:机器学习最常用的50大免费数据集

作者: 机器之心 2018-06-16 22:54:36

机器学习领域里有哪些开放数据集?Gengo 近日发布了一份高质量免费数据集列表,其搜索范围不仅包含内容广泛(如 Kaggle),也包括高度特化的(如自动驾驶汽车专用数据集)数据集种类。

首先,在选择数据集时要记住几个重要标准:

  • 数据集不能是混乱的,因为你不希望花费大量时间整理数据。
  • 数据集不应该有过多的行或者列,这样才能容易处理。
  • 数据越干净越好——清理大型数据集可能会非常耗时。
  • 该数据集可以用于回答一些有趣的问题。

这样的话,让我们看看能找到点什么?

一、查找数据集

1. Kaggle:一个数据科学竞赛网站,其中包含大量外部贡献的有趣数据集。你可以在它长长的列表中(https://www.kaggle.com/datasets)找到各种小众数据集,从拉面的评分、篮球数据,到西雅图的宠物牌照。

2. UCI Machine Learning Repository:它是网络中最古老的数据集源之一,是寻找各种有趣数据集的第一选择。在这里,尽管数据集都是用户自行贡献的,但清洁程度仍然很高。此外,你可以直接从 UCI Machine Learning Repository 上下载数据,无需注册。

二、通用数据集

公共政府数据集

3. Data.gov:这个网站可以从多个美国政府机构下载数据,从政府预算到学校成绩。不过要注意:其中的大部分数据需要进一步研究。

链接:https://www.data.gov/

4. Food Environment Atlas:包含有关本地食物选择如何影响美国饮食习惯的数据。

链接:https://catalog.data.gov/dataset/food-environment-atlas-f4a22

5. School system finances:美国学校系统财务状况调查。

链接:https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

6. Chronic disease data:美国各地慢性病指标数据。

链接:https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

7. The US National Center for Education Statistics:美国和世界各地教育机构和教育人口统计数据。

链接:https://nces.ed.gov/

8. The UK Data Centre:英国最大的社会、经济和人口数据收集。

链接:https://www.ukdataservice.ac.uk/

9. Data USA:美国公共数据的全面可视化。

链接:https://datausa.io/

金融类

10. Quandl:很好的财经数据来源——有助于建立预测经济指标或股票价格的模型。

链接:https://www.quandl.com/

11. World Bank Open Data:涵盖人口统计和世界各地大量经济和发展指标的数据集。

链接:https://data.worldbank.org/

12. IMF Data:国际货币基金组织公布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。

链接:https://www.imf.org/en/Data

13. Financial Times Market Data:世界金融市场的最新信息,包括股票价格指数、商品和外汇。

链接:https://markets.ft.com/data/

14. Google Trends:观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。

链接:https://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

15. AmericanEconomic Association (AEA):寻找美国宏观经济数据的来源。

链接:https://www.aeaweb.org/resources/data/us-macro-regional

三、机器学习数据集

图像

16. Labelme:注释图像的大数据集。

链接:https://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

17. ImageNet:著名的 ImageNet,由斯坦福大学教授李飞飞等人发起,它是面向新算法的真实图像数据集。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。

链接:https://image-net.org/

18. LSUN:场景理解和许多辅助任务(房间布局估计、显著性预测等)。

链接:https://lsun.cs.princeton.edu/2016/

19. MS COCO:ImageNet 之外另一个常用的图像数据集,包含通用图像理解和注释。

链接:https://cocodataset.org/

20. COIL100:100 个不同的物体在 360°旋转中以每个角度成像。

链接:https://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

21. Visual Genome:非常详细的视觉知识库,配有约 100K 个图像的注释。

链接:https://visualgenome.org/

22. Google's Open Images:Creative Commons 下的 900 万个图片的网址集合,「已经标注了跨越 6000 多个类别的标签」。

链接:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

23. Labelled Faces in the Wild:13000 张贴有标签的人脸图像,用于开发涉及人脸识别的应用。

链接:https://vis-www.cs.umass.edu/lfw/

24. Stanford Dogs Dataset:包含 20580 个图像和 120 个不同品种的狗类别。

链接:https://vision.stanford.edu/aditya86/ImageNetDogs/

25. Indoor Scene Recognition:非常具体的数据集,适用于大多数场景识别模型,因为后者在「外部」表现更好。包含 67 个室内类别,总共 15620 个图像。

链接:https://web.mit.edu/torralba/www/indoor.html

情感分析

26. Multidomain Sentiment analysis dataset:有点旧的一个数据集,以亚马逊的产品评论为特色。

链接:https://www.cs.jhu.edu/~mdredze/datasets/sentiment/

27. IMDB reviews:用于二进制情感分类的较旧的、相对较小的数据集,具有 25000 个电影评论。

链接:https://ai.stanford.edu/~amaas/data/sentiment/

28. Stanford Sentiment Treebank:带有情感注释的标准情感数据集。

链接:https://nlp.stanford.edu/sentiment/code.html

29. Sentiment140:一个流行的数据集,使用 16 万条预先删除表情符号的推文

链接:https://help.sentiment140.com/for-students/

30. Twitter US Airline Sentiment:2015 年 2 月以来美国航空公司的推特数据,分为正面、负面和中性。

链接:https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

31. Enron Dataset:Enron 公司高层管理人员的电子邮件数据,整理成文件夹。

链接:https://www.cs.cmu.edu/~./enron/

32. Amazon Reviews:包含来自亚马逊长达 18 年的约 3500 万条评论。数据包括产品和用户信息、评级和明文审查。

链接:https://snap.stanford.edu/data/web-Amazon.html

33. Google Books Ngrams:Google 书籍中的词汇集合。

链接:https://aws.amazon.com/cn/datasets/google-books-ngrams/

34. Blogger Corpus:从 blogger . com 收集的 681288 篇博客文章。每个博客至少包含 200 个常用英语单词。

链接:https://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

35. Wikipedia Links data:维基百科全文。数据集包含 400 多万篇文章中的近 19 亿字。你可以根据单词、短语或段落本身的一部分进行搜索。

链接:https://code.google.com/p/wiki-links/downloads/list

36. Gutenberg eBooks List:古腾堡计划电子书注释清单。

链接:https://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

37. Hansards text chunks of Canadian Parliament:加拿大第 36 届国会记录 130 万对文本。

链接:https://www.isi.edu/natural-language/download/hansard/

38. Jeopardy:机智问答节目 Jeopardy 中存档的 20 多万个问题。

链接:https://www.reddit.com/r/datasets/comments/1uyd0t/200000jeopardyquestionsinajsonfile/

39. SMS Spam Collection in English:由 5574 条英文短信垃圾邮件组成的数据集

链接:https://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

40. Yelp Reviews:Yelp 发布的开放数据集包含 500 多万条评论。

链接:https://www.yelp.com/dataset

41. UCI's Spambase:大型垃圾邮件数据集,可用于垃圾邮件过滤。

链接:https://archive.ics.uci.edu/ml/datasets/Spamb (https://archive.ics.uci.edu/ml/datasets/Spambase)

自动驾驶

42. Berkeley DeepDrive BDD100k:目前最大的自动驾驶人工智能数据集。包含 100000 多段视频,内容涉及一天中不同时间和天气条件下 1100 多小时的驾驶体验。注释图像来自纽约和旧金山地区。

链接:https://bdd-data.berkeley.edu/

43. Baidu Apolloscapes:百度 Apollo 计划开放的大规模自动驾驶数据集。它定义了 26 个不同语义项目,如汽车、自行车、行人、建筑物、路灯等。

链接:https://apolloscape.auto/

44. Comma.ai:7 小时以上的公路行驶体验。详细信息包括车速、加速度、转向角和 GPS 坐标。

链接:https://archive.org/details/comma-dataset

45. Oxford's Robotic Car:一年内在英国牛津同一条路线重复 100 多次的行驶。数据集捕捉天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。

链接:https://robotcar-dataset.robots.ox.ac.uk/

46. Cityscape Dataset:记录 50 个不同城市街道场景的大型数据集。

链接:https://www.cityscapes-dataset.com/

47. CSSAD Dataset:该数据集可用于自主车辆的感知和导航。数据集在发达国家的道路上出现严重偏差。

链接:https://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

48. KUL Belgium Traffic Sign Dataset:比利时佛兰德区数以千计截然不同的超过 10000 个的交通标志标注。

链接:https://www.vision.ee.ethz.ch/~timofter/traffic_signs/

49. MIT AGE Lab:在 AgeLab 收集的 1000 多个小时的多传感器驱动数据集样本。

链接:https://lexfridman.com/carsync/

50. LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此数据集包括交通标志、车辆检测、交通灯和轨迹模式。

链接:https://cvrr.ucsd.edu/LISA/datasets.html

原文链接:https://gengo.ai/articles/the-50-best-free-datasets-for-machine-learning/

【本文是51CTO专栏机构“机器之心”的原创文章,微信公众号“机器之心( id: almosthuman2014)”】

戳这里,看该作者更多好文

机器学习 数据集 文本处理 自动驾驶
上一篇:世界杯运用AI预测比分,瑞士银行此次能否靠谱? 下一篇:卷积神经网络十五问:CNN与生物视觉系统的研究探索
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

支持机器学习的8个数据仓库

对于规模非常大的数据集来说,理想的情况是在数据已经存在的地方建立模型,这样就不需要导出大量的数据。有一些数据仓库在一定程度上支持这一点。而随之而来的问题是:哪些数据仓库支持机器学习?它们是如何做到的?以下按字母排序对这些数据仓库进行分析和阐述。

李睿 ·  1天前
三大因素影响,自动驾驶卡车发展不断提速

更重要的是,自动驾驶卡车的一大初衷是解决货车司机不足问题,但随着商用进程的不断加快,其却对现有货车司机造成岗位冲击,这无疑也带来众多限制和争议。在此背景下,我们在推动自动驾驶卡车快速狂飙的同时,也需关注现实阻碍和相关问题,做到趋利避害。

智能制造网 ·  2天前
无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉

来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,大幅缩小了自监督预训练与密集预测任务之间的鸿沟。

阿德莱德大学、同济大学、字节跳动 ·  3天前
华人力学家黄永刚团队新作:大脑光遗传植入让小老鼠一秒变基友

美国西北大学的工程师和生物学家发布的最新研究:在老鼠的头骨中嵌入神经植入物,通过激活植入物,老鼠会立即开始互动并成为朋友。

佚名 ·  3天前
预计到2023年,机器学习的收入将达到803亿美元

随着机器学习领域的进步和自发增长,AnalyticsInsight预计,到2023年,机器学习的收入将达到803亿美元,2020年的复合年增长率为33.6%。

Cassie ·  3天前
2021年人工智能和机器学习的五大趋势

今天,人工智能和机器学习正在不断改变着我们的世界,2020年的冠状病毒疫情给这两项技术带来了新的机遇和迫切性,预计到2021年将有更大的发展。

开课吧科科 ·  4天前
自动驾驶赛场火热,商业化道路即将开启

如今以人工智能和大数据为代表的技术正在蓬勃发展,而汽车领域的智能发展趋势也如火如荼。

六栎 ·  4天前
前馈网络+线性交互层=残差MLP,Facebook纯MLP图像分类架构入场

近日,Facebook 提出了具有数据高效训练、用于图像分类的纯 MLP 架构 ResMLP,当采用现代的训练方法时,该架构在 ImageNet 数据集上实现了相对不错的性能。

佚名 ·  4天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载