基于python的长津湖评论数据分析与可视化,使用是svm情感分析建模

第2章对可能会用到的技术进行了概括性的描述,首先回顾了爬虫的基本理论,描述了网页的构成;其次对于情感分析和文本分词进行技术介绍。

第5章首先对数据的词向量方法做出介绍,再将数据集划分成训练集和测试集。其次,分别在CountVectorizer和TfidfVectorizer两种不同的词向量方式下,基于SVM构建出SVC模型进行模型训练,最后进行性能分析。

第6章分为两个部分,首先是总结篇,这个部分主要是总结归纳这个项目的工作,最后是展望,针对工作中的不足,指出可以改进的地方,以及下一步可以开展的研究方向。

爬虫,又名网络爬虫,就是能够自动访问互联网并将网络内容下载下来的程序,它也是搜索引擎的根基,最具代表性的就是两大搜索引擎Google和Baidu,都是将海量数据存储下载到云端,通过强大的网络爬虫提供给用户高质量的搜索服务。

为了进一步了解爬虫基本原理,首先先介绍一下网页的基本结构。基本的网页是由HTML、CSS、JavaScript三部分构成的。HTML也叫超文本标记语言。通过HTML标签描述网页的文字、图片、声音等内容,用相应的HTML标签标记网页需要定义哪些内容。HTML语言发展至今,已然经历了6个版本,目前主流的版本是HTML5,只是由于人们的习惯,仍然称为HTML。CSS通常被称为CSS风格或样式表,主要是为了在HTML页面中设置文字内容(字体,尺寸,对齐方式等),图片的形状(宽度和高度,边框风格,边距等),以及提供丰富功能的外观显示风格,例如版面的布局。JavaScript是Web页面中的脚本语言,静态页面可以通过JavaScript转化为动态页面,支持用户交互,并对相应的事件做出反应3[3]。简单来说HTML就是人的骨架,CSS就是人穿在身上的衣服,而JavaScript就是人的行为。

爬虫可以概括为四个环节:分析网页结构,获取网页源码,提取数据,数据持久化。爬虫第一步是分析网页的结构,如果是静态网页,就直接将网页的源代码获取下来。Python中为用户提供了许多的库,如urllib、requests库等,利用此等功能的库,可向网站的服务器发送请求,得到相应的HTML代码。如果是动态网页,这个时候的HTML网页只是提供内容展示的一个框架,相应的数据是由JavaScript脚本加载出来的。这个时候我们可以通过抓包的方式,将动态加载的后台数据的网址找到,加以规律的查找并封装相应的参数请求页面将数据提取。当然Python也提供了Selenium库,这是一个基于浏览器运行的库,对爬取JavaScript动态渲染的页面是非常有效的。爬虫第二步是获取网页源码,通过上述的网页分析之后我们可以获取到相应的网页源码。接下来进行第三步,提取数据。Python提供了re、Xpath、BeautifulSoup等数据解析库。提取数据的方法有多种,可以根据网页的结构挑选适合该网站的提取方式。爬虫的最后一步是数据持久化。持久化的形式多种多样,我们可以根据数据最终的使用方式存储成想应的格式,如json、txt、csv、xlsx等,也可以存储到数据库中,如Mysql、MongoDb、Redis等。

添加图片注释,不超过140字(可选)

图2-1基于情感词典的情感分析流程

图2-2基于机器学习的情感分析流程

中文分词是指按照一定规范将连续的字序重新组合成词语序列的过程,分词是将一个汉字序列分割成一个单独的词语。其本质就是划分词的边界。由于中文不像英文一样存在空格边界,且汉语博大精深,不同的词组在一起便有不同的含义。当中文发生歧义就会产生不同的语义,也就会出现不同的切割方式5[5]。在一定程度上就会对分词造成影响。所以在进行机器学习之前,首先要最大限度的完成分词操作,确保词性标注的准确性,才能得到好的模型。

该章节对爬取网页数据和情感分析可能会用到的技术进行了概括性介绍,首先是对爬虫技术的详细介绍,其次是对情感分词、中文分词和词向量化的介绍,以备后续章节使用。

本章主要介绍了软硬件环境、数据采集及数据清洗的方法。首先是使用Python对网页数据进行爬取,再通过Pandas库对数据进行清洗。

图3-1数据采集流程图

图3-2网页结构分析

图3-3网页请求分析

图3-4网页请求构造

图3-5数据采集

图3-6控制台输出

图3-7采集结果

图3-8数据存放格式

图3-10请求头参数规律1

图3-11请求头参数规律2

图3-12请求页逻辑构建

图3-13采集页面逻辑构造

图3-14控制台结果

图3-15采集结果

图3-16部分数据展示

图4-1Flask工作流程图

图4-3正负样本条数

最后使用WordCloud绘制词云提取影评中的关键词。如图4-7所示,观众根据画面认为这是“向英雄致敬”、“中国加油”、大大的“好看”等“非常感人的历史战争片”,同时也充分为其票房提供了强有力的保障。

图4-7词云图

该章节对Flask框架和Echarts组件做出详细介绍,并在Flask框架上搭建一个简易网站供可视化组件存放,由于Flask框架使用方便、简单,此处只对图表做出呈现,不详细描述网站的搭建过程。

图5-1数据预处理图1

图5-2数据预处理图2

图5-3数据预处理图3

图5-4数据预处理图4

图5-5定义数据随机抽取方法

图5-6划分数据集

图5-7文本向量化1

图5-8jieba中文分词

图5-9文本向量化2

图5-10划分数据集2

图5-10模型评分1

图5-11ROC曲线1

图5-12混淆矩阵1

图5-13模型评分2

图5-14ROC曲线2

图5-15混淆矩阵2

图5-16差评数据预测

图5-17好评数据预测

在此之前,我们有必要对SVM模型进行一番了解。支持向量机(SVM)模型是一个二分类模型。在文本分类、图像分类、生物序列分析和生物数据挖掘等领域都有广泛的应用,是被视为文本分类中效果较为优秀的一种算法9[9]。

两种词向量的数据在SVC模型的训练后,预测结果都在89以上,如图5-10、图5-13所示。TfidfVectorizer更为精准,CountVectorizer稍微差了一些,但两者都达到了预期目标。单条数据的预测值也符合预期,效果如图5-16、图5-17所示。

THE END
1.限时起售价16.99万元!改款后的ID.UNYX与众,哪款车型值得入?今年7月,大众汽车(安徽)推出了首款纯电SUV车型ID.UNYX与众,这款车外观设计足够大胆前卫且与众不同,相比南北大众的ID.系列车型,它展现出了更为强烈的动感气息,极具个性,并且为了给这台新车宣传造势,还特意搞了个金车标,被网友们称为“金标大众”。 https://www.dongchedi.com/article/7442533984564888115
2.2024年管家婆一奖一特一中,大众迈腾安全性能解析思念无涯在技术开发发布了:2024年管家婆一奖一特一中,大众迈腾安全性能解析_血神子SVM13.44.75, 标题:2024年管家婆一奖一特一中,大众迈腾安全性能解析:血神子SVM13.44.75的深度洞察 引言:随着科技的不断进步,汽车安全性能已经成为消费者购车时考虑的重要因素之https://saishenxs.cn/post/26743.html
3.2024年香港挂牌之全篇(最完整篇),权威解析方法在香港,挂牌是一项备受关注的活动,而2024年的挂牌过程更是引发了大众的强烈兴趣。其中,SVM55.689运动版作为这一年的亮点车型之一,不仅在设计与性能上具有一定的权威地位,更与挂牌活动密切相关。本文将对2024年香港的挂牌机制进行深入解析,并重点关注SVM55.689运动版的市场表现及其在挂牌中的重要性。 http://www.gdyanlun.com/post/2086.html
4.南路店)电话,地址,价格,营业时间(图)上海美食服务热情,价格实惠,菜味道好,性价比高,咸鹅,臭鳜鱼,土鸡都好吃 回应 2024-09-30 21:38 更多评价(56) 大众点评上海徽菜频道为您提供咸鹅老豆腐(上南路店)地址,电话,最新菜单等最新商户信息,找上海美食,就上大众点评。 热门商圈推荐热门徽菜推荐推荐导航 https://www.dianping.com/shop/l36ewTlKVxUsVMAZ
5.2017年3月大众品牌经销商展厅物料使用规范(0324).pptx2017年3月大众品牌经销商展厅物料使用规范(0324).pptx,2017年3月大众品牌经销商展厅物料使用规范 ——适用日期:3.20-3.31 部门 展架数量 画布画面 摆放位置 SVMS 5 展车车旁 正反正反正反正反正反 SVMC 2 交车区门口及交车区内 正反正反正反正反正反 SVAhttps://max.book118.com/html/2018/0616/172927766.shtm
6.Python深度学习篇一《什么是深度学习》深度学习在非监测点处先前的机器学习技术(浅层学习)仅包含将输入数据变换到一两个连续的表示空间,通常使用简单的变换,比如高维非线性投影(SVM)或决策树。但这些技术通常无法得到复杂问题所需要的精确表示。因此,人们必须竭尽全力让初始输入数据更适合用这些方法处理,也必须手动为数据设计好的表示层。这叫作特征工程。与此相反,深度学习完全https://blog.csdn.net/qq_43479892/article/details/110455529
7.顶配14.98万,还配沃德十佳发动机,这台紧凑SUV比大众还“大众”它可不是来自大众的EA211哦,实际上大众已经连续3年没入选“沃德十佳”了。这是一台来自韩国的Kappa系列发动机,作为韩系双雄之一的起亚,自然也用上了这台发动机。 今年3月份东风悦达起亚就推出了新一代智跑1.4T版,指导价13.79万-14.49万元。不过本着“买新不买旧”的原则,我更推荐大家关注9月份成都车展上推出的智https://m.yoojia.com/article/9340137332637694788.html
8.上汽大众斯柯达的微博L上汽大众斯柯达的微博视频 小窗口 ?收藏 转发 评论 ?赞 c +关注 上汽大众斯柯达 10月18日 09:15 来自微博视频号 #上汽大众斯柯达#全系车型现已入驻大众品牌经销商展厅网络覆盖率快速提升服务全面升级,让选车、养车更便捷 L上汽大众斯柯达的微博视频 小https://weibo.com/svwskoda/
9.白峰美羽车牌号,大众汽车本土首次关厂裁员降薪 中国市场承压 顶不住了? 孙丽梅致辞 而且叠穿搭配也不只是局限于外套内搭叠穿,还可以尝试披肩来叠穿,当你挑选简单的衬衫搭配的时候,不想要叠穿外套怎么办呢? 肖云彬主持会议 孔令伟报告 以上结果显示,所有机器学习算法都表现出较高的测试准确性,其中 SVM 的均方根误差最低,为 http://www.jyidt.com/index.php?id=jlziyh-396461
10.智东西周报:MIT宣布停止和华为中兴合作百度下半年拟推无人出租4月3日消息,清华大学发布通知,宣布成立车辆与运载学院,简称车辆学院,英文名称School of Vehicle and Mobility,Tsinghua University,英文缩写SVM ,隶属于机械工程学院。同时撤销清华大学汽车工程系建制。 学院下设四个研究所,分别为车辆动力工程研究所、汽车工程研究所、智能出行研究所和特种车辆与动力研究所。“四所”覆https://zhidx.com/p/144533.html
11.GitHub大众点评评论的4分类20个多任务学习 0 写在前 多任务学习是继深度学习能够解决单个分类或回归问题之后的一个重要研究方向,它提出的主要背景是,算法工程师总能希望进行一次训练,可以将多个相关的任务目标或不那么相关的目标进行统一的学习,想法很容易理解,这样Multi Task Learing既可以找到同一个对象的多个任务(诸如一https://github.com/CuiShaohua/MultiTaskLearning
12.小波消噪和改进黏菌算法优化支持向量机的网络流量预测模型随着计算机走进大众的视野,互联网在军事、文化、生活等诸多领域具有一定的应用。网络流量是一种对网络状况进行评价的重要指标,因此对网络流量进行建模与预测可以有效的对未来流量变化趋势进行分析与判断。支持向量机(Support Vector Machine,SVM)作为一种较为先进的学习方法,具有泛化能力强与学习效率高等优势被广泛应用于机https://wap.cnki.net/lunwen-1022705092.html
13.负向影响范文8篇(全文)2 基于SVM的学习问题描述 训练数据集一般包括三个独立的子集:错误分类 (misclassified data) 、非良好分类 (not well-separated data) 和良好分类 (well-separated data) 。错误分类和非良好分类子集共同组成负向数据子集 (negative data) , 而良好分类子集构成正向数据子集 (positive data) 。 https://www.99xueshu.com/w/ikey56y2cy2y.html