数据集7个领域100+数据集免费,赶紧收!实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室

数据在人工智能中占据着非常重要的地位,一个高质量的数据集往往能够提高模型训练的质量和预测的准确率。

1、推荐系统数据集

1、DEAPdataset:使用脑电图、生理和视频信号进行情绪分析的数据集。

2、MyPersonalityDataset:myPersonality是一个很受欢迎的Facebook应用程序,它允许用户进行真实的心理测试,并允许我们(在征得同意的情况下)记录他们的心理和Facebook资料。目前,我们的数据库包含超过600万个测试结果,以及超过400万个Facebook个人简介。

3、Bibsonomy:社交书签系统中的标签推荐。

4、Delicious:plista新闻推荐数据集,美味可口。

6、Jester:来自小丑在线笑话推荐系统的匿名评级。

7、BookCrossing:Book-Crossing数据集。

8、LastFM:来自1892个用户的92,800张艺术家录音。

9、Wikipedia:维基百科向感兴趣的用户提供所有可用内容的免费拷贝。这些数据库可用于镜像、个人使用、非正式备份、脱机使用或数据库查询。

10、OpenStreetMap:这里找到的文件是OpenStreetMap.org数据库的完整副本,包括编辑历史。这些都是在OpenDataCommonsOpenDatabaseLicense1.0许可下发布的。

11、PythonGitCode:Hermes是Lab41对推荐系统的一次尝试。通过分析多种推荐系统算法在不同数据集上的性能,探讨了如何为新的应用选择推荐系统。

12、Gist:为机器学习推荐和评级的公共数据集。

16、Taobao:该数据集包含了匿名用户在“双十一”前后6个月的购物记录,以及表明他们是否重复购买的标签信息。由于隐私问题,数据采集存在偏差,因此该数据集的统计结果会与天猫的实际情况相背离。医疗健康

2、NLP(自然语言处理)数据集

2、欧洲语言机器翻译。(612MB)

3、材料安全数据表:230000材料安全数据表。(3GB)

4、百万新闻头条-澳大利亚ABC[Kaggle]:由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。(56MB)

5、全球新闻一周供稿[Kaggle]:在2017年8月的一周,用20多种语言全球发表的140万篇新闻事件数据集。(115MB)

6、路透社语料库:一个包含路透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1,它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB)

7、SaudiNewsNet:31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。(2MB)

8、垃圾短信数据集:5574条被标记为合法/不合法的、未经编码的真实英文短信消息。(200KB)

9、《南方公园》数据集:csv格式文件,包含季、集、角色和台词的剧本信息。(3.6MB)

10、Twitter的Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法。(77MB)

11、Twitter上对于美国各大航空公司的态度(Kaggle数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB)

12、城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的CSV语料库,包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。(238MB)

13、亚马逊的WesburyLabUsenet语料库:2005-2010的47,860个英文新闻组的邮件匿名汇编。(40GB)

15、维基百科的XML格式数据:所有维基媒体(Wikimedia)的完整复制,以维基文本元(wikitextsource)和元数据的形式嵌入到XML中。(500GB)

16、亚马逊公开数据集

17、Kaggle数据集

18、Kaggle比赛(请确保这些kaggle比赛数据可以在比赛之外使用)

20、优秀的公开NLP数据集(包含更多清单)

21、reddit数据集(无数个数据集,大部分由业余爱好者爬取,但数据的整理和许可可能不够规范)

22、Rs.io:也是一个很长的数据集清单

23、斯坦福NLP组(大部分为已标注的语料库和TreeBanks,以及实用的NLP工具)

24、自然语言处理(NLP)数据集列表【NicolasIderhoff】

25、StanfordNLP发布新的多轮、跨域、任务导向对话数据集【MihailEric】26、《数据之美》自然语言数据集/代码

3、金融数据集

1、美国劳工部统计局官方发布数据

2、沪深股票除权除息、配股增发全量数据,截止2016.12.31

3、上证主板日线数据,截止2017.05.05,原始价、前复权价、后复权价,1260支股票

4、深证主板日线数据,截止2017.05.05,原始价、前复权价、后复权价,466支股票

5、深证中小板日线数据,截止2017.05.05,原始价、前复权价、后复权价,852支股票

6、深证创业板日线数据,截止2017.05.05,原始价、前复权价、后复权价,636支股票

7、上证A股日线数据,1999.12.09至2016.06.08,前复权,1095支股票

8、深证A股日线数据,1999.12.09至2016.06.08,前复权,1766支股票深证创业板日线数据,1999.12.09至2016.06.08,前复权,510支股票

9、MT4平台外汇交易历史数据

10、Forex平台外汇交易历史数据

11、几组外汇交易逐笔(Ticks)数据

4、CV场景图像数据集

1、StreetScences图像数据

2、Places2场景图像数据

3、UCFGoogleStreetView图像数据

4、SUN场景图像数据

5、TheCelebrityinPlaces图像数据

5、Web图像数据集

1、HARRISON社交标签图像

2、NUS-WIDE标签图像

3、VisualSynset标签图像

4、AnimalsWithAttributes标签图像

6、人形轮廓数据集

1、MPIIHumanShape

2、人体轮廓数据

3、BiwiKinectHeadPose头部姿势数据

4、上半身人像数据

5、INRIAPerson数据集

7、视觉文字识别图像数据集

1、StreetViewHouseNumber门牌号图像数据

2、MNIST手写数字识别图像数据

3、3DMNIST数字识别图像数据【Kaggle数据】

4、MediaTeamDocument文档影印和内容数据

5、TextRecognition文字图像数据

6、NISTHandprintedFormsandCharacters手写英文字符数据

7、NISTStructuredFormsReferenceSetofBinaryImages

8、(SFRS)图像数据

9、NISTStructuredFormsReferenceSetofBinaryImages

10、(SFRS)II图像数据

8、其他社会数据集

1、七个机器学习时序数据集

2、赛马赔率数据集

3、JMIR数据集专刊《JMIRData》

4、人口普查收入数据集分类

5、多模态二元行为数据集

6、Facebook星际争霸游戏数据集

7、(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)

THE END
1.(13301)服装推荐系统:数据集处理——初步分析推荐系统的数据集文章浏览阅读1.2k次,点赞15次,收藏14次。在"notebooks" 目录中保存了和数据处理相关的Notebook文件:data_cleaning.ipynb、eda_feature_eng.ipynb和initial_analysis.ipynb。_推荐系统的数据集https://blog.csdn.net/asd343442/article/details/137874137
2.推荐系统之基于内容的推荐算法:BM25:数据集构建与管理.docx推荐系统之基于内容的推荐算法:BM25:数据集构建与管理.docx 19页内容提供方:找工业软件教程找老陈 大小:33.13 KB 字数:约1.75万字 发布时间:2024-09-05发布于辽宁 浏览人气:13 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)https://max.book118.com/html/2024/0904/8073030126006123.shtm
3.推荐系统常用数据集1. Criteo 数据集 criteo数据集用于广告点击率预估任务(标签:0/1);其中包含13个dense特征和26个sparse特征; 数据格式如下:第一列为label, 之后分别是13个dense特征(integer feature),26个sparse特征(categorical feature);每列之间使用tab进行分隔。 <integer feature1><integer feature13><categorical feature1https://www.jianshu.com/p/5c88f4bd7c71
4.知识图谱的推荐系统数据集wx5cac1bacddda7的技术博客知识图谱在推荐系统中可以用于丰富用户和物品的信息,从而提高推荐的精度和个性化程度。以下是一些包含知识图谱信息的推荐系统数据集的示例: Freebase数据集:Freebase是一个开放的知识图谱,包含了大量实体之间的关系信息。您可以使用Freebase数据来构建知识图谱推荐系统的数据集。 https://blog.51cto.com/u_14282855/8648588
5.伯乐,一个统一全面高效的推荐系统代码库我们实现了百余种常用的推荐算法,并提供了43个推荐数据集的格式化副本。 大规模的标准评测 我们支持一系列被广泛认可的评估方式来测试和比较不同的推荐算法。 RecBole 是一个基于 PyTorch 实现的,面向研究者的,易于开发与复现的,统一、全面、高效的推荐系统代码库,它可以通过 pip, conda 和源文件三种途径安装,使https://recbole.io/cn/
6.融合用户属性信息的冷启动推荐算法AET在实验数据集1上,实验结果如表1。 其中,pearson-knn是采用pearson相关系数作为相似性度量,基于用户(50个邻居)的推荐评分预测方法;MF是采用simon funk提出的矩阵分解的方法(10个潜在因子);FP(fused preference)是本文提出的方法。可见,在一般数据集上,FP和MF性能接近,优于基于用户的协同过滤的方法。 http://www.chinaaet.com/article/3000073409