数据集7个领域100+数据集免费，赶紧收！实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室|推荐系统常用数据集_食谱

数据在人工智能中占据着非常重要的地位，一个高质量的数据集往往能够提高模型训练的质量和预测的准确率。

1、推荐系统数据集

1、DEAPdataset：使用脑电图、生理和视频信号进行情绪分析的数据集。

2、MyPersonalityDataset：myPersonality是一个很受欢迎的Facebook应用程序，它允许用户进行真实的心理测试，并允许我们(在征得同意的情况下)记录他们的心理和Facebook资料。目前，我们的数据库包含超过600万个测试结果，以及超过400万个Facebook个人简介。

3、Bibsonomy：社交书签系统中的标签推荐。

4、Delicious：plista新闻推荐数据集，美味可口。

6、Jester：来自小丑在线笑话推荐系统的匿名评级。

7、BookCrossing：Book-Crossing数据集。

8、LastFM：来自1892个用户的92,800张艺术家录音。

9、Wikipedia：维基百科向感兴趣的用户提供所有可用内容的免费拷贝。这些数据库可用于镜像、个人使用、非正式备份、脱机使用或数据库查询。

10、OpenStreetMap：这里找到的文件是OpenStreetMap.org数据库的完整副本，包括编辑历史。这些都是在OpenDataCommonsOpenDatabaseLicense1.0许可下发布的。

11、PythonGitCode：Hermes是Lab41对推荐系统的一次尝试。通过分析多种推荐系统算法在不同数据集上的性能，探讨了如何为新的应用选择推荐系统。

12、Gist：为机器学习推荐和评级的公共数据集。

16、Taobao：该数据集包含了匿名用户在“双十一”前后6个月的购物记录，以及表明他们是否重复购买的标签信息。由于隐私问题，数据采集存在偏差，因此该数据集的统计结果会与天猫的实际情况相背离。医疗健康

2、NLP(自然语言处理)数据集

2、欧洲语言机器翻译。（612MB）

3、材料安全数据表：230000材料安全数据表。（3GB）

4、百万新闻头条-澳大利亚ABC[Kaggle]：由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。（56MB）

5、全球新闻一周供稿[Kaggle]：在2017年8月的一周，用20多种语言全球发表的140万篇新闻事件数据集。（115MB）

6、路透社语料库：一个包含路透社新闻报道的数据集，用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1，它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。（2.5GB）

7、SaudiNewsNet：31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。（2MB）

8、垃圾短信数据集：5574条被标记为合法/不合法的、未经编码的真实英文短信消息。（200KB）

9、《南方公园》数据集：csv格式文件，包含季、集、角色和台词的剧本信息。（3.6MB）

10、Twitter的Sentiment140（情感分析数据集）：关于品牌/关键词的推文，网站包括论文和研究想法。（77MB）

11、Twitter上对于美国各大航空公司的态度（Kaggle数据集）：这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文，贡献者们将其分类为积极、消极和中立，对于那些分类为消极态度的推文，还会给出原因（例如“飞机晚点”或“服务态度差”等）。（2.5MB）

12、城市词典（美国在线俚语词典）里的单词和定义：一个经过清洗的CSV语料库，包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。（238MB）

13、亚马逊的WesburyLabUsenet语料库：2005-2010的47,860个英文新闻组的邮件匿名汇编。（40GB）

15、维基百科的XML格式数据：所有维基媒体（Wikimedia）的完整复制，以维基文本元（wikitextsource）和元数据的形式嵌入到XML中。（500GB）

16、亚马逊公开数据集

17、Kaggle数据集

18、Kaggle比赛（请确保这些kaggle比赛数据可以在比赛之外使用）

20、优秀的公开NLP数据集（包含更多清单）

21、reddit数据集（无数个数据集，大部分由业余爱好者爬取，但数据的整理和许可可能不够规范）

22、Rs.io：也是一个很长的数据集清单

23、斯坦福NLP组（大部分为已标注的语料库和TreeBanks，以及实用的NLP工具）

24、自然语言处理(NLP)数据集列表【NicolasIderhoff】

25、StanfordNLP发布新的多轮、跨域、任务导向对话数据集【MihailEric】26、《数据之美》自然语言数据集/代码

3、金融数据集

1、美国劳工部统计局官方发布数据

2、沪深股票除权除息、配股增发全量数据，截止2016.12.31

3、上证主板日线数据，截止2017.05.05，原始价、前复权价、后复权价，1260支股票

4、深证主板日线数据，截止2017.05.05，原始价、前复权价、后复权价，466支股票

5、深证中小板日线数据，截止2017.05.05，原始价、前复权价、后复权价，852支股票

6、深证创业板日线数据，截止2017.05.05，原始价、前复权价、后复权价，636支股票

7、上证A股日线数据，1999.12.09至2016.06.08，前复权，1095支股票

8、深证A股日线数据，1999.12.09至2016.06.08，前复权，1766支股票深证创业板日线数据，1999.12.09至2016.06.08，前复权，510支股票

9、MT4平台外汇交易历史数据

10、Forex平台外汇交易历史数据

11、几组外汇交易逐笔（Ticks）数据

4、CV场景图像数据集

1、StreetScences图像数据

2、Places2场景图像数据

3、UCFGoogleStreetView图像数据

4、SUN场景图像数据

5、TheCelebrityinPlaces图像数据

5、Web图像数据集

1、HARRISON社交标签图像

2、NUS-WIDE标签图像

3、VisualSynset标签图像

4、AnimalsWithAttributes标签图像

6、人形轮廓数据集

1、MPIIHumanShape

2、人体轮廓数据

3、BiwiKinectHeadPose头部姿势数据

4、上半身人像数据

5、INRIAPerson数据集

7、视觉文字识别图像数据集

1、StreetViewHouseNumber门牌号图像数据

2、MNIST手写数字识别图像数据

3、3DMNIST数字识别图像数据【Kaggle数据】

4、MediaTeamDocument文档影印和内容数据

5、TextRecognition文字图像数据

6、NISTHandprintedFormsandCharacters手写英文字符数据

7、NISTStructuredFormsReferenceSetofBinaryImages

8、(SFRS)图像数据

9、NISTStructuredFormsReferenceSetofBinaryImages

10、(SFRS)II图像数据

8、其他社会数据集

1、七个机器学习时序数据集

2、赛马赔率数据集

3、JMIR数据集专刊《JMIRData》

4、人口普查收入数据集分类

5、多模态二元行为数据集

6、Facebook星际争霸游戏数据集

7、(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)

THE END

数据集7个领域100+数据集免费，赶紧收！实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室

秒懂算法推荐系统常用数据集和验证方法

数据集7个领域100+数据集免费，赶紧收！实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室

干货从菜鸟到老司机，数据科学的17个必用数据集推荐腾讯云开发者社区

数据集(二)10个领域70+数据集分享，赶紧收藏！

入门从文本处理到自动驾驶：机器学习最常用的50大免费数据集

新媒体环境下的短视频推荐模型及算法研究传媒