数据在人工智能中占据着非常重要的地位,一个高质量的数据集往往能够提高模型训练的质量和预测的准确率。
1、推荐系统数据集
1、DEAPdataset:使用脑电图、生理和视频信号进行情绪分析的数据集。
2、MyPersonalityDataset:myPersonality是一个很受欢迎的Facebook应用程序,它允许用户进行真实的心理测试,并允许我们(在征得同意的情况下)记录他们的心理和Facebook资料。目前,我们的数据库包含超过600万个测试结果,以及超过400万个Facebook个人简介。
3、Bibsonomy:社交书签系统中的标签推荐。
4、Delicious:plista新闻推荐数据集,美味可口。
6、Jester:来自小丑在线笑话推荐系统的匿名评级。
7、BookCrossing:Book-Crossing数据集。
8、LastFM:来自1892个用户的92,800张艺术家录音。
9、Wikipedia:维基百科向感兴趣的用户提供所有可用内容的免费拷贝。这些数据库可用于镜像、个人使用、非正式备份、脱机使用或数据库查询。
10、OpenStreetMap:这里找到的文件是OpenStreetMap.org数据库的完整副本,包括编辑历史。这些都是在OpenDataCommonsOpenDatabaseLicense1.0许可下发布的。
11、PythonGitCode:Hermes是Lab41对推荐系统的一次尝试。通过分析多种推荐系统算法在不同数据集上的性能,探讨了如何为新的应用选择推荐系统。
12、Gist:为机器学习推荐和评级的公共数据集。
16、Taobao:该数据集包含了匿名用户在“双十一”前后6个月的购物记录,以及表明他们是否重复购买的标签信息。由于隐私问题,数据采集存在偏差,因此该数据集的统计结果会与天猫的实际情况相背离。医疗健康
2、NLP(自然语言处理)数据集
2、欧洲语言机器翻译。(612MB)
3、材料安全数据表:230000材料安全数据表。(3GB)
4、百万新闻头条-澳大利亚ABC[Kaggle]:由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。(56MB)
5、全球新闻一周供稿[Kaggle]:在2017年8月的一周,用20多种语言全球发表的140万篇新闻事件数据集。(115MB)
6、路透社语料库:一个包含路透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1,它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB)
7、SaudiNewsNet:31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。(2MB)
8、垃圾短信数据集:5574条被标记为合法/不合法的、未经编码的真实英文短信消息。(200KB)
9、《南方公园》数据集:csv格式文件,包含季、集、角色和台词的剧本信息。(3.6MB)
10、Twitter的Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法。(77MB)
11、Twitter上对于美国各大航空公司的态度(Kaggle数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB)
12、城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的CSV语料库,包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。(238MB)
13、亚马逊的WesburyLabUsenet语料库:2005-2010的47,860个英文新闻组的邮件匿名汇编。(40GB)
15、维基百科的XML格式数据:所有维基媒体(Wikimedia)的完整复制,以维基文本元(wikitextsource)和元数据的形式嵌入到XML中。(500GB)
16、亚马逊公开数据集
17、Kaggle数据集
18、Kaggle比赛(请确保这些kaggle比赛数据可以在比赛之外使用)
20、优秀的公开NLP数据集(包含更多清单)
21、reddit数据集(无数个数据集,大部分由业余爱好者爬取,但数据的整理和许可可能不够规范)
22、Rs.io:也是一个很长的数据集清单
23、斯坦福NLP组(大部分为已标注的语料库和TreeBanks,以及实用的NLP工具)
24、自然语言处理(NLP)数据集列表【NicolasIderhoff】
25、StanfordNLP发布新的多轮、跨域、任务导向对话数据集【MihailEric】26、《数据之美》自然语言数据集/代码
3、金融数据集
1、美国劳工部统计局官方发布数据
2、沪深股票除权除息、配股增发全量数据,截止2016.12.31
3、上证主板日线数据,截止2017.05.05,原始价、前复权价、后复权价,1260支股票
4、深证主板日线数据,截止2017.05.05,原始价、前复权价、后复权价,466支股票
5、深证中小板日线数据,截止2017.05.05,原始价、前复权价、后复权价,852支股票
6、深证创业板日线数据,截止2017.05.05,原始价、前复权价、后复权价,636支股票
7、上证A股日线数据,1999.12.09至2016.06.08,前复权,1095支股票
8、深证A股日线数据,1999.12.09至2016.06.08,前复权,1766支股票深证创业板日线数据,1999.12.09至2016.06.08,前复权,510支股票
9、MT4平台外汇交易历史数据
10、Forex平台外汇交易历史数据
11、几组外汇交易逐笔(Ticks)数据
4、CV场景图像数据集
1、StreetScences图像数据
2、Places2场景图像数据
3、UCFGoogleStreetView图像数据
4、SUN场景图像数据
5、TheCelebrityinPlaces图像数据
5、Web图像数据集
1、HARRISON社交标签图像
2、NUS-WIDE标签图像
3、VisualSynset标签图像
4、AnimalsWithAttributes标签图像
6、人形轮廓数据集
1、MPIIHumanShape
2、人体轮廓数据
3、BiwiKinectHeadPose头部姿势数据
4、上半身人像数据
5、INRIAPerson数据集
7、视觉文字识别图像数据集
1、StreetViewHouseNumber门牌号图像数据
2、MNIST手写数字识别图像数据
3、3DMNIST数字识别图像数据【Kaggle数据】
4、MediaTeamDocument文档影印和内容数据
5、TextRecognition文字图像数据
6、NISTHandprintedFormsandCharacters手写英文字符数据
7、NISTStructuredFormsReferenceSetofBinaryImages
8、(SFRS)图像数据
9、NISTStructuredFormsReferenceSetofBinaryImages
10、(SFRS)II图像数据
8、其他社会数据集
1、七个机器学习时序数据集
2、赛马赔率数据集
3、JMIR数据集专刊《JMIRData》
4、人口普查收入数据集分类
5、多模态二元行为数据集
6、Facebook星际争霸游戏数据集
7、(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)