资源挺多的，都不用自己收集，互联网真是太精彩啦

打开数据集查找器

学习机器学习的最佳方法是练习不同的项目。您可以使用这些主要数据集查找器在线搜索和下载免费数据集。

Kaggle：一个包含各种外部贡献的有趣数据集的数据科学网站。您可以在其主列表中找到各种数据集，从饮食评级到篮球数据，甚至是西雅图宠物许可证。

UCI机器学习库：Web上最古老的数据集源之一，是寻找有趣数据集的第一站。虽然数据集是用户贡献的，具有不同的清洁度，但绝大多数都是干净的。您可以直接从UCI机器学习库下载数据，无需注册。

机器学习的公共政府数据集

我在哪里可以下载用于机器学习的公共政府数据集？

人口数据是改善政府和社会的有力工具，可作为重大经济决策的基础。使用公共政府数据培训的机器学习模型可以帮助政策制定者识别趋势并准备与人口下降或增长，老龄化和迁移相关的问题。

**http://Data.gov：**该网站可以从多个美国政府机构下载数据。数据范围从政府预算到学校绩效分数。但请注意：大部分数据需要进一步研究。

**食物环境地图集：**包含当地食物选择如何影响美国饮食的数据。

**学校系统财务：**对美国学校系统财务状况的调查。

**慢性病数据：**美国各地区慢性病指标数据。

**美国国家教育统计中心：**来自美国和世界各地的教育机构和教育人口统计数据。

**英国数据服务：**英国最大的社会，经济和人口数据集。

**Data USA：**美国公共数据的全面可视化。

机器学习的财经数据集

我在哪里可以下载用于机器学习的财务和经济数据集？

机器学习被证明是金融业的黄金机会。财务定量记录保存数十年，因此该行业非常适合机器学习。实际上，机器学习已经在转变金融和投资银行业务，用于算法交易，股票市场预测和欺诈检测。在经济学中，机器学习可用于测试经济模型和预测公民行为。

**Quandl：**经济和金融数据的良好来源——有助于建立预测经济指标或股票价格的模型。

**世界银行开放数据：**涵盖全球人口统计数据和大量经济和发展指标的数据集。

**国际货币基金组织数据：**国际货币基金组织公布有关国际金融，债务利率，外汇储备，商品价格和投资的数据。

**金融时报市场数据：**来自世界各地的金融市场的最新信息，包括股票价格指数，商品和外汇。

**谷歌趋势：**检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。

**美国经济协会（AEA）：**寻找美国宏观经济数据的良好来源。

计算机视觉的图像数据集

我在哪里可以下载计算机视觉的图像数据集？

图像数据集可用于训练各种计算机视觉应用，例如医学成像技术，自动驾驶车辆和人脸识别。

**Labelme：**带注释图像的大型数据集。

**ImageNet：**新算法的事实上的图像数据集。根据WordNet层次结构进行组织，其中层次结构的每个节点由数百和数千个图像描绘。

**LSUN：**场景理解与许多辅助任务（房间布局估计，显着性预测等）。

**MS COCO：**通用图像理解和字幕。

**COIL100：**在360度旋转的每个角度拍摄100个不同的物体。

**视觉基因组：**非常详细的视觉知识库，带有~100K图像的字幕。

**谷歌的开放图像：**在知识共享下，有900万个图像的网络集合“已经注释了超过6,000个类别的标签”。

**野外标记面：**13,000张人脸标记图像，用于开发涉及面部识别的应用程序。

**斯坦福犬数据集：**包含20,580张图像和120种不同的犬种。

**室内场景识别：**一种非常特殊的数据集，可用作大多数场景识别模型，更好“在外面”。包含67个室内类别，总共15620个图像。

机器学习的情感分析数据集

我在哪里可以下载用于机器学习的情绪分析数据集？

情感分析模型需要大型专业数据集才能有效学习。以下列表应该提示您可以改进情绪分析算法的一些无穷无尽的方法。

**多域情绪分析数据集：**一个稍微较旧的数据集，其中包含来自亚马逊的产品评论。

**IMDB评论：**一个较旧的，相对较小的二元情绪分类数据集，有25,000个电影评论。

**斯坦福情感树库：**具有情感注释的标准情绪数据集。

**Sentiment140：**一个流行的数据集，它使用160,000条预先删除表情符号的推文。

**Twitter美国航空公司情绪：**2015年2月美国航空公司的Twitter数据，分类为正面，负面和中性推文。

自然语言处理数据集

在哪里可以下载用于自然语言处理的开放数据集？

自然语言处理是一个巨大的研究领域，但以下列表包括用于不同自然语言处理任务的广泛数据集，例如语音识别和聊天机器人。

**安然数据集：**来自安然高级管理层的电子邮件数据，组织成文件夹。

**亚马逊评论：**包含来自亚马逊的大约3500万条评论，涵盖18年。数据包括产品和用户信息，评级和明文审核。

**Google Books Ngrams：**来自Google图书的一系列文字。

**Blogger Corpus：**收集了来自http://blogger.com的681288篇博文。每个博客至少包含200个常用英语单词。

**维基百科链接数据：**维基百科的全文。该数据集包含来自400多万篇文章的近19亿个单词。您可以按段落，短语或段落本身的一部分进行搜索。

**Gutenberg电子书列表：**Project Gutenberg的电子书注释列表。

**Hansards发表了加拿大议会的大量文章：**来自第36届加拿大议会记录的130万对文本。

**Jeopardy：**来自测验节目Jeopardy的超过200000个问题的归档。

**英语短信垃圾邮件收集：**由5574条英文短信垃圾邮件组成的数据集

**Yelp评论：**Yelp发布的一个开放数据集，包含超过500万条评论。

**UCI的Spambase：**一个大型垃圾邮件数据集，对垃圾邮件过滤非常有用。

自动驾驶汽车的数据集

我在哪里可以下载开放数据集来培训自动驾驶汽车？

自动驾驶车辆需要使用大量高质量数据集进行训练，以便他们能够准确地感知其环境和周围物体。

**Berkeley DeepDrive BDD100k：**目前是自动驾驶AI的最大数据集。包含超过100000个视频，包括一天中不同时段和天气条件下超过1100小时的驾驶体验。带注释的图像来自纽约和旧金山地区。

**百度Apolloscapes：**大型图像数据集，定义了26种不同的语义项目，如汽车，自行车，行人，建筑物，路灯等。

**Comma.ai：**超过7小时的高速公路驾驶。细节包括汽车的速度，加速度，转向角和GPS坐标。

**牛津的机器人汽车：**在英国牛津的相同路线重复超过100次，在一年的时间内完成。该数据集捕获天气、交通和行人的不同组合，以及建筑和道路工程等长期变化。

**城市景观数据集：**一个大型数据集，记录50个不同城市的城市街景。

**CSSAD数据集：**此数据集可用于自动驾驶车辆的感知和导航。数据集严重偏向发达国家的道路。

**KUL比利时交通标志数据集：**比利时法兰德斯地区数千个物理上不同的交通标志，有超过10000多个交通标志注释。

**麻省理工学院实验室：**在AgeLab收集的1000多小时多传感器驾驶数据集的样本。

**LISA：**智能和安全汽车实验室，加州大学圣地亚哥分校数据集：该数据集包括交通标志，车辆检测，交通信号灯和轨迹模式。

大学公开数据集

(Stanford)69G大规模无人机(校园)图像数据集【Stanford】

http://cvgl.stanford.edu/projects/uav_data/

人脸素描数据集【CUHK】

http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

自然语言推理(文本蕴含标记)数据集【NYU】

https://www.nyu.edu/projects/bowman/multinli/

Berkeley图像分割数据集BSDS500【Berkeley】

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html

宠物图片(分割)数据集【Oxford】

http://www.robots.ox.ac.uk/~vgg/data/pets/

发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】

https://groups.csail.mit.edu/vision/datasets/ADE20K/

多模态二元行为数据集【GaTech】

http://www.cbi.gatech.edu/mmdb/

计算机视觉／图像／视频数据集

Fashion-MNIST风格服饰图像数据集【肖涵】

https://github.com/zalandoresearch/fashion-mnist

大型(50万)LOGO标志数据集

https://data.vision.ee.ethz.ch/cvl/lld/

4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】

http://dfaust.is.tue.mpg.de

基于MNIST的视觉计数合成数据集Counting MNIST

http://fomoro.com/tools/counting-mnist/

YouTube MV视频数据集【Keunwoo Choi】

https://github.com/keunwoochoi/YouTube-music-video-5M

计算机视觉合成数据集/工具大列表【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

动物属性标记数据集【ChristophH. Lampert／Daniel Pucher／JohannesDostal】

http://cvml.ist.ac.at/AwA2/

日本漫画数据集Manga109

http://dl.acm.org/citation.cfm?doid=3011549.3011551

俯拍舞蹈视频数据集

http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/

Pixiv(着色)图片数据集【Jerry Li】

https://github.com/jerryli27/pixiv_dataset

e-VDS视频数据集

https://engineering.purdue.edu/elab/eVDS/#download

Quick, Draw!简笔画涂鸦数据集

https://github.com/googlecreativelab/quickdraw-dataset

简笔画涂鸦数据集【hardmaru】

https://github.com/hardmaru/sketch-rnn-datasets

服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner／Gerard Pons-Moll／Peter V. Gehler】

http://files.is.tue.mpg.de/classner/gp/

COCO像素级标注数据集

https://github.com/nightrome/cocostuff

大规模街道级图片(分割)数据集【Peter Kontschieder】

http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

大规模日语图片描述数据集

https://github.com/STAIR-Lab-CIT/STAIR-captions

Cityscapes街景语义分割数据集（50城30类5k细标20k粗标图片及标记视频）

https://github.com/mcordts/cityscapesScripts

(街头)时尚服饰数据集(2000+标注图片)

https://github.com/bearpaw/clothing-co-parsing

PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】

https://github.com/bodokaiser/piwise

Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】

https://www.re-work.co/blog/the-something-something-video-dataset

文本／评价／问答／自然语言数据集

(20万)英文笑话数据集【TaivoPungas】

https://github.com/taivop/joke-dataset

机器学习保险行业问答开放数据集【HainWang】

https://github.com/shuzi/insuranceQA

保险行业问答(QA)数据集【Minwei Feng】

https://github.com/shuzi/insuranceQA

Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】

https://github.com/keunwoochoi/YouTube-music-video-5M

实体/名词语义关系标记数据集【David S. Batista】

https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets

NLVR：自然语言基础数据集(对象分组、数量、比较及空间关系推理)

http://lic.nlp.cornell.edu/nlvr/

2.8万文章/10万问题大规模(英语考试)阅读理解数据集

https://github.com/qizhex/RACE_AR_baselines

错误拼写数据集

http://www.dcs.bbk.ac.uk/~ROGER/corpora.html

文本简化数据集

http://www.cs.pomona.edu/~dkauchak/simplification/

英语词/句/语义框架框架标注数据集FrameNet

https://framenet.icsi.berkeley.edu/fndrupal/

(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】

https://github.com/niderhoff/nlp-datasets

跨语种/多样式/多粒度文本相似性检测数据集

https://github.com/FerreroJeremy/Cross-Language-Dataset

Quora数据集：400000行潜在重复问题

http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

文本分类数据集

http://disi.unitn.it/moschitti/corpora.htm

Frames：Maluuba对话数据集

https://datasets.maluuba.com/Frames/dl

跨域(Amazon商品评论)情感数据集

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

语义网机器学习系统评价/基准数据集集合

http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml

其它数据集

数据科学/机器学习数据集汇总

https://elitedatascience.com/datasets

CORe50：连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】

https://vlomonaco.github.io/core50/

(Matlab)数据集统计分布自动发现【Isabel Valera】

http://proceedings.mlr.press/v70/valera17a.html

(建筑物)损害评估数据集【tsunami】

https://github.com/faiton713/ABCDdataset

IndieWeb社交图谱数据集【IndieWeb】

http://www.indiemap.org

DeepMind开源环境/数据集/代码集合【DeepMind】

https://deepmind.com/research/open-source/

鸟叫声数据集【xeno-canto】

http://www.xeno-canto.org

Wolfram数据集仓库

https://datarepository.wolframcloud.com

大型音乐分析数据集FMA

https://github.com/mdeff/fma

(300万)Instacart在线杂货购物数据集【Jeremy Stanley】

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

用于欺诈检测的合成财务数据集【TESTIMON】

https://www.kaggle.com/ntnu-testimon/paysim1

NSynth：大规模高质量音符标记音频数据集

https://magenta.tensorflow.org/datasets/nsynth

LIBSVM格式分类/回归/多标签/字符串数据集

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html

笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】

http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/

StackExchange近似/重复问题数据集

http://nlp.cis.unimelb.edu.au/resources/cqadupstack/

2010-2017最全KDD CUP赛题回顾及数据集

http://suo.im/2kRoQ1

食谱数据集：带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】

https://www.kaggle.com/hugodarwood/epirecipes

奥斯卡数据集【Academy of Motion Picture Arts and Sciences】

https://www.kaggle.com/theacademy/academy-awards

计算医疗库：(TensorFlow)大型医疗数据集分析与机器学习建模【AkshayBhat】

https://github.com/AKSHAYUBHAT/ComputationalHealthcare

聚类数据集

https://cs.joensuu.fi/sipu/datasets/

官方开放气候数据集

https://pan.baidu.com/s/1i52Xarb

全球恐怖袭击事件数据集【START Consortium】

https://www.kaggle.com/START-UMD/gtd

七个机器学习时序数据集

https://machinelearningmastery.com/time-series-datasets-for-machine-learning/

大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本)

http://t.cn/RNMr09n

赛马赔率数据集

http://t.cn/RNf0tXN

新的YELP数据集：包含470万评论和15.6万商家

http://t.cn/RNG6JYi

JMIR数据集专刊《JMIR Data》

http://t.cn/RCIhmvS

[用于评价监督机器学习算法的基准数据集](https:// github.com/EpistasisLab/penn-ml-benchmarks)

[人口普查收入数据集分类](https:// github.com/dformoso/sklearn-classification)

日文木版印刷文字识别数据集

http://t.cn/RCZPfYB

多模态二元行为数据集

http://t.cn/RCzFn1g

(TensorFlow)AudioSet音频事件数据集分类模型

Facebook星际争霸游戏数据集 (TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)

机器学习论文/数据集/工具集锦(日文)

机器学习公司的十大数据搜集策略

NLP数据集加载工具集

日语相似词数据集

大规模人本完形填空(多选阅读理解)数据集

高质量免费数据集列表

《数据之美》自然语言数据集/代码

微软数据集MS MARCO，阅读理解领域的「ImageNet」

http://t.cn/RIMqGBK

AI2科学问答数据集(多选)

http://t.cn/RI5liwJ

常用图像数据集大全

（分类，跟踪，分割，检测等）

搜狗实验室数据集：

http://www.sogou.com/labs/dl/p.html

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别，总数高达2,836,535张图片。对于每张图片，数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

http://www.imageclef.org/

IMAGECLEF致力于位图片相关领域提供一个基准（检索、分类、标注等等） Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.

转载自：

机器学习的50个最佳免费数据集 - 知乎 (zhihu.com)

(各领域机器学习数据集汇总（附下载地址）_大数据公社-CSDN博客