MovieLens数据集简介萧六弟

MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。

这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS:它是某次具有历史意义的推荐系统竞赛所用的数据集)。

1m的数据解压后,可以看到四个主要的csv文件,分别是links.csv,movies.csv,ratings.csv,tags.csv。links介绍了该数据集中的movieId和imdb、tmdb中电影的对应关系。tags是用户的打标签数据。本文的介绍主要基于ratings.csv和movies.csv

我们用pandans观察数据的描述及前五行:

ratings=pd.read_csv('../data/ml-1m/ratings.csv',index_col=None)ratings.describe()ratings.head(5)输出为:

movies数据文件里包含了一部电影的id和标题,以及该电影的类别。数据格式如下:movieId,title,genresmovieId:每部电影的idtitle:电影的标题genres:电影的类别(详细分类见readme.txt)

我们用pandans观察数据的前五行:

movies=pd.read_csv('../data/ml-1m/movies.csv',index_col=None)movies.head(5)输出为:

合并数据集我们可以根据movieId来合并两个数据集

data=pd.merge(ratings,movies,on='movieId')汇总每部电影的评分数量合并数据集之后,我们可以看一下每部电影的评分数量,并按照降序进行排序:

rating_count_by_movie=data.groupby(['movieId','title'],as_index=False)['rating'].count()rating_count_by_movie.columns=['movieId','title','rating_count']rating_count_by_movie.sort_values(by=['rating_count'],ascending=False,inplace=True)rating_count_by_movie[:10]输出为:

得到打分的平均值及标准差

rating_stddev=data.groupby(['movieId','title']).agg({'rating':['mean','std']})rating_stddev.head(10)

THE END
1.推荐系统常用数据集汇总(20个)推荐系统数据集明尼苏达大学在 MovieLens 上进行采集的用户电影评分数据集,有多种数据集大小,如 100k,1M,10M,20M,1B 等。 数据规模: MovieLens 20m 电影推荐数据集包含 138493 位 用户对 27278 部 电影的 20000263 项 电影的评分(1-5 分),电影标签数为 465564 个,数据采集自网站 movielens.umn.edu,时间段为 1995.01-2015.03https://blog.csdn.net/BGMcat/article/details/143168048
2.movieslens100k数据mob64ca13ff9303的技术博客movielens数据集是电影推荐数据集,数据集有多种大小和目的使用的数据集。按照使用目的可以分为两类,一类数据集适用于推进最新研究的数据,一类数据集是用于高校研究和教育科研使用的数据集。本次介绍三个数据集的使用和处理。 数据集 每个数据集都有readme.txt文件介绍,每列数据的用途和含义。 https://blog.51cto.com/u_16213613/12110481
3.多模态电影推荐数据集多模态电影推荐数据集 CSTR31253.11.sciencedb.j00133.00101 DOI10.57760/sciencedb.j00133.00101 pan hua li Description 该数据集为预处理之后的用于推荐的多模态电影数据集,包括3个子数据集,分别为M_Douban、M_ML-1M和M_ML-100K。 其中,M_Douban数据集是在豆瓣网站上利用爬虫技术爬取相关信息所构建的多模态电影数https://www.scidb.cn/en/detail?dataSetId=237e10b3d0a94a7ba53f06c4178a43c9
4.MovieLens20M电影推荐数据集数据集MovieLens 20m 电影推荐数据集包含 138493位 用户对 27278部 电影的 20000263项 电影的评分(1-5分),电影标签数为 465564个,数据采集自网站 movielens.umn.edu,时间段为 1995.01-2015.03。 数据列表 数据名称上传日期大小下载 MovieLens_20M_Dataset.zip2023-02-22195.46MB 文档 About Dataset Context The datasets dehttps://tianchi.aliyun.com/dataset/146215
5.用于测试电影推荐算法的数据集(MovieLens)自从Netflix Prize奖项设立以来,美国高校明尼苏达大学(UMN)的Grouplens团队公开了一系列用于测试推荐算法的数据集。其中,就包括几个大小不同的电影评论数据集,分别有10万,100万,1000万条电影评分数据。 网站数据集页面 页面地址 网站除了用于测试电影推荐算法的数据集以外,还有其他数据集. https://www.jianshu.com/p/a9175b80a1f9
6.中国电影数据信息网全国电影票务综合信息管理系统 全国点播影院经营管理信息系统 电影票检票平台 电影专项资金项目申报 新建影院注册 票房数据 *数据日期(每日14:30更新数据) 实时大盘 票房(万元) 场次(万) 人次(万) 大盘趋势 *每日14:30更新数据 重要精神 更多>> 习近平在中共中央政治局第十七次集体学习时强调 锚定建成文化强国战略https://www.zgdypw.cn/
7.movielens1M数据集推荐电影评分MovieLens 20m 电影推荐数据集数据集 MovieLens 20m 电影推荐数据集包含 138493位 用户对 27278部 电影的 20000263项 电影的评分(1-5分),电影标签数为 465564个,数据采集自网站 movielens.umn.edu,时间段为 1995.01-2015.03。 上传者:weixin_38710198时间:2021-07-06 https://www.iteye.com/resource/redtongue-11102169
8.大数据实训案例——电影推荐系统(Scala版)图书本书详细介绍了一个大数据应用案例——电影推荐系统(Scala版),案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Spring等系统和软件的安装与使用方法。案例采用的编程语言是Scala和Java。 目录 https://www.ryjiaoyu.com/book/details/9425