首先需要说明一下推荐系统数据中的几个类别:
Item:即我们要推荐的东西,如产品、电影、网页或者一条信息片段
User:对item进行评分以及接受推荐系统推荐的项目的人
Rating:用户对item的偏好的表达。评分可以是二分类的(如喜欢和不喜欢),也可以是整数(如1到5星)或连续(某个间隔的任何值)。另外,还有一些隐反馈,只记录一个用户是否与一个项目进行了交互。
MovieLens数据集由GroupLens研究组在UniversityofMinnesota—明尼苏达大学中组织的。MovieLens是电影评分的集合,有各种大小。数据集命名为1M,10M和20M,是因为它们包含1,10和20万个评分。MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。
Jester是由KenGoldberg和他在加州大学伯克利分校的小组发展的,包含150个笑话大约600万的评分。像MovieLens一样,Jester评分由互联网上的用户提供。与其他数据集相比,Jester有两个方面是特殊的:它使用-10到10的连续等级,并且在量级上具有最高的评分密度。评分密度的意思是大概“平均每个用户评价多少个项目”?如果每个用户都对每个项目进行了评分,那么评级密度将为100%。如果没有人评价过任何东西,那将是0%。Jester的密度约为30%,这意味着一个用户平均对30%的笑话进行了评分。作为比较,MovieLens1M的密度为4.6%(其他数据集的密度低于1%)。当然不是那么简单。不是每个用户都评价相同数量的项目。相反,一些用户对许多项目进行评分,大多数用户只评价一些。
由于维基百科不是为了提供推荐者数据集而设计的,所以它确实存在一些挑战。其中一个是从页面中提取有意义的内容向量,但是幸运的是,大多数页面被很好地分类,为每个页面提供了一种类型。构建维基百科的内容向量的挑战与现实世界数据集的推荐面临的挑战相似。所以我们认为这是建立一些这样做的专门知识的好机会。
OpenStreetMap是一个协作的地图项目,类似于维基百科。像维基百科一样,OpenStreetMap的数据由用户提供,整个编辑历史的完整转储也是可用的。数据集中的对象包括道路,建筑物,兴趣点,以及您可能在地图上找到的任何其他内容。这些对象由键值对标识,因此可以从中创建一个基本的内容向量。然而,键值对是自由的,所以选择正确的设置是一个挑战。一些键值对由编辑软件(例如“highway=住宅”)进行标准化和相同的使用,但通常它们可以是用户决定进入的任何内容-例如“FixMe!!=Exactlocationunknown”。
7.PythonGitRepositories
以上9个数据集在其关键指标方面的比较:
其他一些数据集:
1.EachMovie
2.Netflix
这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflixprize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480189个匿名用户对大约17770部电影作的大约lO亿次评分。
3.UsenetNewsgroups
这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。
4.UCI知识库
UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本。