推荐系统常用数据集CuriousZero

首先需要说明一下推荐系统数据中的几个类别:

Item:即我们要推荐的东西,如产品、电影、网页或者一条信息片段

User:对item进行评分以及接受推荐系统推荐的项目的人

Rating:用户对item的偏好的表达。评分可以是二分类的(如喜欢和不喜欢),也可以是整数(如1到5星)或连续(某个间隔的任何值)。另外,还有一些隐反馈,只记录一个用户是否与一个项目进行了交互。

MovieLens数据集由GroupLens研究组在UniversityofMinnesota—明尼苏达大学中组织的。MovieLens是电影评分的集合,有各种大小。数据集命名为1M,10M和20M,是因为它们包含1,10和20万个评分。MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。

Jester是由KenGoldberg和他在加州大学伯克利分校的小组发展的,包含150个笑话大约600万的评分。像MovieLens一样,Jester评分由互联网上的用户提供。与其他数据集相比,Jester有两个方面是特殊的:它使用-10到10的连续等级,并且在量级上具有最高的评分密度。评分密度的意思是大概“平均每个用户评价多少个项目”?如果每个用户都对每个项目进行了评分,那么评级密度将为100%。如果没有人评价过任何东西,那将是0%。Jester的密度约为30%,这意味着一个用户平均对30%的笑话进行了评分。作为比较,MovieLens1M的密度为4.6%(其他数据集的密度低于1%)。当然不是那么简单。不是每个用户都评价相同数量的项目。相反,一些用户对许多项目进行评分,大多数用户只评价一些。

由于维基百科不是为了提供推荐者数据集而设计的,所以它确实存在一些挑战。其中一个是从页面中提取有意义的内容向量,但是幸运的是,大多数页面被很好地分类,为每个页面提供了一种类型。构建维基百科的内容向量的挑战与现实世界数据集的推荐面临的挑战相似。所以我们认为这是建立一些这样做的专门知识的好机会。

OpenStreetMap是一个协作的地图项目,类似于维基百科。像维基百科一样,OpenStreetMap的数据由用户提供,整个编辑历史的完整转储也是可用的。数据集中的对象包括道路,建筑物,兴趣点,以及您可能在地图上找到的任何其他内容。这些对象由键值对标识,因此可以从中创建一个基本的内容向量。然而,键值对是自由的,所以选择正确的设置是一个挑战。一些键值对由编辑软件(例如“highway=住宅”)进行标准化和相同的使用,但通常它们可以是用户决定进入的任何内容-例如“FixMe!!=Exactlocationunknown”。

7.PythonGitRepositories

以上9个数据集在其关键指标方面的比较:

其他一些数据集:

1.EachMovie

2.Netflix

这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflixprize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480189个匿名用户对大约17770部电影作的大约lO亿次评分。

3.UsenetNewsgroups

这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。

4.UCI知识库

UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本。

THE END
1.(13301)服装推荐系统:数据集处理——初步分析推荐系统的数据集文章浏览阅读1.2k次,点赞15次,收藏14次。在"notebooks" 目录中保存了和数据处理相关的Notebook文件:data_cleaning.ipynb、eda_feature_eng.ipynb和initial_analysis.ipynb。_推荐系统的数据集https://blog.csdn.net/asd343442/article/details/137874137
2.推荐系统之基于内容的推荐算法:BM25:数据集构建与管理.docx推荐系统之基于内容的推荐算法:BM25:数据集构建与管理.docx 19页内容提供方:找工业软件教程找老陈 大小:33.13 KB 字数:约1.75万字 发布时间:2024-09-05发布于辽宁 浏览人气:13 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)https://max.book118.com/html/2024/0904/8073030126006123.shtm
3.推荐系统常用数据集1. Criteo 数据集 criteo数据集用于广告点击率预估任务(标签:0/1);其中包含13个dense特征和26个sparse特征; 数据格式如下:第一列为label, 之后分别是13个dense特征(integer feature),26个sparse特征(categorical feature);每列之间使用tab进行分隔。 <integer feature1><integer feature13><categorical feature1https://www.jianshu.com/p/5c88f4bd7c71
4.知识图谱的推荐系统数据集wx5cac1bacddda7的技术博客知识图谱在推荐系统中可以用于丰富用户和物品的信息,从而提高推荐的精度和个性化程度。以下是一些包含知识图谱信息的推荐系统数据集的示例: Freebase数据集:Freebase是一个开放的知识图谱,包含了大量实体之间的关系信息。您可以使用Freebase数据来构建知识图谱推荐系统的数据集。 https://blog.51cto.com/u_14282855/8648588
5.伯乐,一个统一全面高效的推荐系统代码库我们实现了百余种常用的推荐算法,并提供了43个推荐数据集的格式化副本。 大规模的标准评测 我们支持一系列被广泛认可的评估方式来测试和比较不同的推荐算法。 RecBole 是一个基于 PyTorch 实现的,面向研究者的,易于开发与复现的,统一、全面、高效的推荐系统代码库,它可以通过 pip, conda 和源文件三种途径安装,使https://recbole.io/cn/
6.融合用户属性信息的冷启动推荐算法AET在实验数据集1上,实验结果如表1。 其中,pearson-knn是采用pearson相关系数作为相似性度量,基于用户(50个邻居)的推荐评分预测方法;MF是采用simon funk提出的矩阵分解的方法(10个潜在因子);FP(fused preference)是本文提出的方法。可见,在一般数据集上,FP和MF性能接近,优于基于用户的协同过滤的方法。 http://www.chinaaet.com/article/3000073409