高校大数据实训课程系列案例之电影推荐系统

《高校大数据实训课程系列案例之电影推荐系统(Scala版)》教材官网

厦门大学林子雨编著

(E-mail:ziyulin@xmu.edu.cn)

全国高校大数据教学名师精品力作

资源全面,提供全方位一站式在线服务

教材已经由人民邮电出版社出版发行

ISBN:978-7-115-50306-0定价:45元

本页面内容导航

扫一扫访问本网页

教材简介

图书ISBN:978-7-115-50306-0人民邮电出版社

本书详细介绍了一个大数据应用案例——电影推荐系统,案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Kettle、Node.js等系统和软件的安装与使用方法。本案例采用Scala语言编写Spark程序。

本书适合用于高校大数据实训课程的教学,本书中的具体案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。

案例概述

本案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Kettle、Node.js等系统和软件的安装与使用方法。本案例采用Scala语言编写Spark程序。本案例适合用于高校大数据实训课程的教学。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。

本案例旨在帮助学生形成以下几个方面的能力:

(1)掌握Linux操作系统的安装和使用;(2)掌握Hadoop的安装和使用方法;(3)掌握关系数据库的原理以及MySQL数据库的安装和使用方法;(4)掌握使用IntelliJIDEA开发Scala程序的方法;(5)掌握ETL工具Kettle的安装和使用方法;(6)掌握Spark程序(包括SparkSQL程序和SparkMLlib程序)开发方法;(7)掌握推荐系统的原理;(8)掌握基于协同过滤的推荐算法的原理及其具体使用方法;(9)掌握数据挖掘的步骤和方法;(10)掌握基于js的网页开发方法;(11)掌握利用网页可视化呈现数据分析结果的方法。

本案例适用于以下对象:(1)高校(本科和高职)教师;(2)高校(本科和高职)学生;(3)大数据学习者。

本案例可以作为高校大数据实训课程的实践教学案例,建议安排80学时左右完成本案例。

本案例可以在单机、伪分布式、分布式集群环境下完成实验。对于Hadoop而言,三种模式的区别在于:(1)单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;(2)伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;(3)分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。

需要说明的是,高校采用真正分布式集群环境进行实验的必要性不强,很多高校也不具备多人同时开展分布式编程实践的大数据实验平台,因此,建议在伪分布式环境下完成本案例。

在使用伪分布式模式进行安装配置时,如果采用在Windows系统上安装Linux虚拟机的方式,则对计算机的配置要求较高,建议的计算机硬件配置为:50GB以上硬盘和8GB以上内存。如果采用双操作系统方式,开机启动后直接进入Linux系统,则使用普通的台式机或者笔记本电脑,都可以顺利完成本案例。

教材官网提供了全部软件的下载,要严格按照相应版本安装系统和软件,否则,可能会引起一些不必要的意外错误。

本案例采用电影评分数据集MovieLens,数据集中包含了三个数据文件:(1)用户评分数据集dat;(2)样本评分数据集txt;(3)电影数据集dat。可以访问教材官网的“下载专区”,到“数据集”目录中下载数据文件movie_recommend.zip获取数据集。

本案例需要在Linux系统环境下完成以下任务:(1)安装JDK;(2)安装关系型数据库MySQL;(3)安装大数据软件Hadoop;(4)安装大数据软件Spark;(5)安装开发工具IntelliJIDEA;(6)安装ETL工具Kettle;(7)使用Kettle将数据文件从Linux本地文件导入到HDFS;(8)使用协同过滤算法实现电影的推荐;(9)编写Spark程序实现电影推荐功能;(10)使用Node.js语言搭建动态网页呈现推荐结果。

图1-1给出了本案例的数据分析整体过程,具体如下:(1)使用Kettle将数据文件从Linux本地文件导入到HDFS;(2)使用Scala语言编写Spark程序,根据数据集训练模型,为用户推荐其最感兴趣的电影;(3)利用Node.js搭建动态网页呈现电影推荐结果。

图电影推荐系统的数据分析整体过程

下载专区

表1“下载专区”目录及其内容概览

实训样板工程

根据实验室打造“高校大数据实训课程样板工程”的实践经验,全面介绍高校大数据实训课程的教学方法和课程资源,包括课程设计目的要求、选题原则、设计内容、教学方法、授课过程、资源平台、教学管理平台等,为全国高校更好开展大数据实训课程建设提供参考。

课程亮点:高校大数据教学名师和企业大数据工程师联合指导、“教学过程一体化管理平台”和“高校大数据课程公共服务平台”全程助力、为高校量身定制的大数据实训案例教材、围绕工程教育认证要求制定课程内容

(2018年9月3日-28日林子雨老师指导厦门理工学院2015级本科生开展大数据实训)

拓展阅读

大数据学习路线图

大数据课程公共服务平台

致谢

本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生魏亮、曾冠华、程璐、林哲、郑宛玉、陈杰祥等同学以及厦门大学计算机科学系2015级本科生张庆晓和罗景亮同学等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。衷心感谢夏小云老师在教材校对工作中的辛勤付出!

THE END
1.推荐系统常用数据集汇总(20个)推荐系统数据集明尼苏达大学在 MovieLens 上进行采集的用户电影评分数据集,有多种数据集大小,如 100k,1M,10M,20M,1B 等。 数据规模: MovieLens 20m 电影推荐数据集包含 138493 位 用户对 27278 部 电影的 20000263 项 电影的评分(1-5 分),电影标签数为 465564 个,数据采集自网站 movielens.umn.edu,时间段为 1995.01-2015.03https://blog.csdn.net/BGMcat/article/details/143168048
2.movieslens100k数据mob64ca13ff9303的技术博客movielens数据集是电影推荐数据集,数据集有多种大小和目的使用的数据集。按照使用目的可以分为两类,一类数据集适用于推进最新研究的数据,一类数据集是用于高校研究和教育科研使用的数据集。本次介绍三个数据集的使用和处理。 数据集 每个数据集都有readme.txt文件介绍,每列数据的用途和含义。 https://blog.51cto.com/u_16213613/12110481
3.多模态电影推荐数据集多模态电影推荐数据集 CSTR31253.11.sciencedb.j00133.00101 DOI10.57760/sciencedb.j00133.00101 pan hua li Description 该数据集为预处理之后的用于推荐的多模态电影数据集,包括3个子数据集,分别为M_Douban、M_ML-1M和M_ML-100K。 其中,M_Douban数据集是在豆瓣网站上利用爬虫技术爬取相关信息所构建的多模态电影数https://www.scidb.cn/en/detail?dataSetId=237e10b3d0a94a7ba53f06c4178a43c9
4.MovieLens20M电影推荐数据集数据集MovieLens 20m 电影推荐数据集包含 138493位 用户对 27278部 电影的 20000263项 电影的评分(1-5分),电影标签数为 465564个,数据采集自网站 movielens.umn.edu,时间段为 1995.01-2015.03。 数据列表 数据名称上传日期大小下载 MovieLens_20M_Dataset.zip2023-02-22195.46MB 文档 About Dataset Context The datasets dehttps://tianchi.aliyun.com/dataset/146215
5.用于测试电影推荐算法的数据集(MovieLens)自从Netflix Prize奖项设立以来,美国高校明尼苏达大学(UMN)的Grouplens团队公开了一系列用于测试推荐算法的数据集。其中,就包括几个大小不同的电影评论数据集,分别有10万,100万,1000万条电影评分数据。 网站数据集页面 页面地址 网站除了用于测试电影推荐算法的数据集以外,还有其他数据集. https://www.jianshu.com/p/a9175b80a1f9
6.中国电影数据信息网全国电影票务综合信息管理系统 全国点播影院经营管理信息系统 电影票检票平台 电影专项资金项目申报 新建影院注册 票房数据 *数据日期(每日14:30更新数据) 实时大盘 票房(万元) 场次(万) 人次(万) 大盘趋势 *每日14:30更新数据 重要精神 更多>> 习近平在中共中央政治局第十七次集体学习时强调 锚定建成文化强国战略https://www.zgdypw.cn/
7.movielens1M数据集推荐电影评分MovieLens 20m 电影推荐数据集数据集 MovieLens 20m 电影推荐数据集包含 138493位 用户对 27278部 电影的 20000263项 电影的评分(1-5分),电影标签数为 465564个,数据采集自网站 movielens.umn.edu,时间段为 1995.01-2015.03。 上传者:weixin_38710198时间:2021-07-06 https://www.iteye.com/resource/redtongue-11102169
8.大数据实训案例——电影推荐系统(Scala版)图书本书详细介绍了一个大数据应用案例——电影推荐系统(Scala版),案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Spring等系统和软件的安装与使用方法。案例采用的编程语言是Scala和Java。 目录 https://www.ryjiaoyu.com/book/details/9425