数据集7个领域100+数据集免费,赶紧收!实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室

数据在人工智能中占据着非常重要的地位,一个高质量的数据集往往能够提高模型训练的质量和预测的准确率。

1、推荐系统数据集

1、DEAPdataset:使用脑电图、生理和视频信号进行情绪分析的数据集。

2、MyPersonalityDataset:myPersonality是一个很受欢迎的Facebook应用程序,它允许用户进行真实的心理测试,并允许我们(在征得同意的情况下)记录他们的心理和Facebook资料。目前,我们的数据库包含超过600万个测试结果,以及超过400万个Facebook个人简介。

3、Bibsonomy:社交书签系统中的标签推荐。

4、Delicious:plista新闻推荐数据集,美味可口。

6、Jester:来自小丑在线笑话推荐系统的匿名评级。

7、BookCrossing:Book-Crossing数据集。

8、LastFM:来自1892个用户的92,800张艺术家录音。

9、Wikipedia:维基百科向感兴趣的用户提供所有可用内容的免费拷贝。这些数据库可用于镜像、个人使用、非正式备份、脱机使用或数据库查询。

10、OpenStreetMap:这里找到的文件是OpenStreetMap.org数据库的完整副本,包括编辑历史。这些都是在OpenDataCommonsOpenDatabaseLicense1.0许可下发布的。

11、PythonGitCode:Hermes是Lab41对推荐系统的一次尝试。通过分析多种推荐系统算法在不同数据集上的性能,探讨了如何为新的应用选择推荐系统。

12、Gist:为机器学习推荐和评级的公共数据集。

16、Taobao:该数据集包含了匿名用户在“双十一”前后6个月的购物记录,以及表明他们是否重复购买的标签信息。由于隐私问题,数据采集存在偏差,因此该数据集的统计结果会与天猫的实际情况相背离。医疗健康

2、NLP(自然语言处理)数据集

2、欧洲语言机器翻译。(612MB)

3、材料安全数据表:230000材料安全数据表。(3GB)

4、百万新闻头条-澳大利亚ABC[Kaggle]:由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。(56MB)

5、全球新闻一周供稿[Kaggle]:在2017年8月的一周,用20多种语言全球发表的140万篇新闻事件数据集。(115MB)

6、路透社语料库:一个包含路透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1,它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB)

7、SaudiNewsNet:31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。(2MB)

8、垃圾短信数据集:5574条被标记为合法/不合法的、未经编码的真实英文短信消息。(200KB)

9、《南方公园》数据集:csv格式文件,包含季、集、角色和台词的剧本信息。(3.6MB)

10、Twitter的Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法。(77MB)

11、Twitter上对于美国各大航空公司的态度(Kaggle数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB)

12、城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的CSV语料库,包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。(238MB)

13、亚马逊的WesburyLabUsenet语料库:2005-2010的47,860个英文新闻组的邮件匿名汇编。(40GB)

15、维基百科的XML格式数据:所有维基媒体(Wikimedia)的完整复制,以维基文本元(wikitextsource)和元数据的形式嵌入到XML中。(500GB)

16、亚马逊公开数据集

17、Kaggle数据集

18、Kaggle比赛(请确保这些kaggle比赛数据可以在比赛之外使用)

20、优秀的公开NLP数据集(包含更多清单)

21、reddit数据集(无数个数据集,大部分由业余爱好者爬取,但数据的整理和许可可能不够规范)

22、Rs.io:也是一个很长的数据集清单

23、斯坦福NLP组(大部分为已标注的语料库和TreeBanks,以及实用的NLP工具)

24、自然语言处理(NLP)数据集列表【NicolasIderhoff】

25、StanfordNLP发布新的多轮、跨域、任务导向对话数据集【MihailEric】26、《数据之美》自然语言数据集/代码

3、金融数据集

1、美国劳工部统计局官方发布数据

2、沪深股票除权除息、配股增发全量数据,截止2016.12.31

3、上证主板日线数据,截止2017.05.05,原始价、前复权价、后复权价,1260支股票

4、深证主板日线数据,截止2017.05.05,原始价、前复权价、后复权价,466支股票

5、深证中小板日线数据,截止2017.05.05,原始价、前复权价、后复权价,852支股票

6、深证创业板日线数据,截止2017.05.05,原始价、前复权价、后复权价,636支股票

7、上证A股日线数据,1999.12.09至2016.06.08,前复权,1095支股票

8、深证A股日线数据,1999.12.09至2016.06.08,前复权,1766支股票深证创业板日线数据,1999.12.09至2016.06.08,前复权,510支股票

9、MT4平台外汇交易历史数据

10、Forex平台外汇交易历史数据

11、几组外汇交易逐笔(Ticks)数据

4、CV场景图像数据集

1、StreetScences图像数据

2、Places2场景图像数据

3、UCFGoogleStreetView图像数据

4、SUN场景图像数据

5、TheCelebrityinPlaces图像数据

5、Web图像数据集

1、HARRISON社交标签图像

2、NUS-WIDE标签图像

3、VisualSynset标签图像

4、AnimalsWithAttributes标签图像

6、人形轮廓数据集

1、MPIIHumanShape

2、人体轮廓数据

3、BiwiKinectHeadPose头部姿势数据

4、上半身人像数据

5、INRIAPerson数据集

7、视觉文字识别图像数据集

1、StreetViewHouseNumber门牌号图像数据

2、MNIST手写数字识别图像数据

3、3DMNIST数字识别图像数据【Kaggle数据】

4、MediaTeamDocument文档影印和内容数据

5、TextRecognition文字图像数据

6、NISTHandprintedFormsandCharacters手写英文字符数据

7、NISTStructuredFormsReferenceSetofBinaryImages

8、(SFRS)图像数据

9、NISTStructuredFormsReferenceSetofBinaryImages

10、(SFRS)II图像数据

8、其他社会数据集

1、七个机器学习时序数据集

2、赛马赔率数据集

3、JMIR数据集专刊《JMIRData》

4、人口普查收入数据集分类

5、多模态二元行为数据集

6、Facebook星际争霸游戏数据集

7、(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)

THE END
1.推荐系统常用数据集delicious2k推荐系统常用数据集 首先需要说明一下推荐系统数据中的几个类别: Item: 即我们要推荐的东西,如产品、电影、网页或者一条信息片段 User:对item进行评分以及接受推荐系统推荐的项目的人 Rating:用户对item的偏好的表达。评分可以是二分类的(如喜欢和不喜欢),也可以是整数(如1到5星)或连续(某个间隔的任何值)。 https://blog.csdn.net/qq_28966711/article/details/89608390
2.推荐系统常用数据集1. Criteo 数据集 criteo数据集用于广告点击率预估任务(标签:0/1);其中包含13个dense特征和26个sparse特征; 数据格式如下:第一列为label, 之后分别是13个dense特征(integer feature),26个sparse特征(categorical feature);每列之间使用tab进行分隔。 <integer feature1><integer feature13><categorical feature1https://www.jianshu.com/p/5c88f4bd7c71
3.推荐系统常见数据集liujy1推荐系统常见数据集 Douban:http://socialcomputing.asu.edu/datasets/Douban这是一个匿名的豆瓣数据集,包含129,490个独立用户和58,541个独立电影条目。 Epinions:http://www.trustlet.org/epinions.htmlEpinions是一个人们可以评论产品的网站。 Flixster:http://socialcomputing.asu.edu/datasets/FlixsterFlixster是一https://www.cnblogs.com/laojifuli/p/12126302.html
4.知识图谱的推荐系统数据集wx5cac1bacddda7的技术博客知识图谱在推荐系统中可以用于丰富用户和物品的信息,从而提高推荐的精度和个性化程度。以下是一些包含知识图谱信息的推荐系统数据集的示例: Freebase数据集:Freebase是一个开放的知识图谱,包含了大量实体之间的关系信息。您可以使用Freebase数据来构建知识图谱推荐系统的数据集。 https://blog.51cto.com/u_14282855/8648588
5.数据挖掘数据集iris还有什么帆软数字化转型知识库在数据挖掘中,除了著名的Iris数据集外,还有许多其他常用的数据集可以用于各种分析和机器学习任务。这些数据集包括:Titanic数据集、MNIST数据集、CIFAR-10数据集、Wine数据集、Adult数据集。Titanic数据集是一组关于1912年泰坦尼克号沉船事故的乘客数据,常用于分类和生存分析。Titanic数据集不仅包含乘客是否幸存的信息,还包括https://www.fanruan.com/blog/article/581042/
6.机器学习快速入门数据集划分(二)这种数据集划分方法叫"留出法"。留出法一般采用70%的数据用于训练,剩下30%的数据用于测试模型的"性能"(准确率等等指标),该方法也是最常用的方式之一。 2.2 k折交叉验证法 有同学可能会想到,如果得到的数据集巨大,是否可以取其中的一部分当做数据集,然后对该子数据集进行划分训练集与测试集? 当然可以!假设数据集https://www.bilibili.com/opus/1012874127334178854
7.面向推荐系统的图卷积网络?5 总结与展望 本文解决的问题是如何为推荐系统设计更合理的图卷积网络算法.首先根据信息利用方式的不同,将现有 基于图卷积网络的推荐算法分类为异质顶点交互算法和同质顶点交互算法,而两类方法都忽略了两者间的互 助.正是为了两者能够互惠互利,本文提出了一种联合利用异质和同质交互图的图卷积网络算法.真实数据集上 https://jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=5928&journal_id=jos