小白入门数据分析

2024-09-0914:17发布于广东人人都是产品经理的官方账号

本文旨在通过一个实际案例,引导读者用最朴素的方式解锁数据分析的大门,打破对数据的迷信,将焦点回归到解决问题上来。通过易于理解的语言和实操指南,即便是数据分析新手也能够快速入门,提升工作效率,发现数据背后的商业洞见。

来到传统私企后,发现很多人还停留在明细数据的阶段。相对好一些的,却是被毒害的青年,开局RFM、帕累托,然后解密宇宙。

提起数据分析,很多人容易陷入过于复杂的模型和工具中,为了“打破迷信”也为了有一份相对能看的数据,决定写一篇易于理解的保姆级实践指南。

无论多么高大上的语言或工具,数据分析绕不过这3点:获取数据、清洗数据、理解数据。

它的难,难在热搜里充斥着不实用和听不懂。

我们总觉得平台取数速度太慢,或者研发诸多刁难,其实是要了太多没用的数据。

在提需求时,要再三问自己:是否有必要、是否有替代方法。

其次请要原始数据,要更少的原始数据。

通过控制数据提取的范围,减少处理冗余信息的计算和人工负担。而原始数据便于组合,但结果数据不仅提取复杂,也很难二次加工。

在获取了数据后,先不要着急进行数据分析,因为原始数据往往是杂乱的。

如果不清洗数据,后续的分析结果很可能会失真或者错误。只有数据“干净”了,分析工具和模型才能发挥作用。

接下来,让我们看看如何进行数据清洗,让它变得“可读”和“可用”。

工具层面,我建议使用飞书多维表格,后续的图形化也更加方便。

首先清理无用的关键词,例如:“故宫”、“文创”、“官方旗舰店”等。

清洗过后,不仅提高了阅读体验,也降低了机器处理数据的算力需求。

必要时,可以增加其他的清理手段,例如:补全空值或统一标签格式,确保数据清晰规范。

第二步,我们要提取有价值的特征。例如商品标题中的节日、用途、人群。

最简单的方式是使用飞书的字段捷径进行智能标签,但对于这类容易标准化的数据,更好的方法是函数提取。

例如REGEXEXTRACTALL函数:

REGEXEXTRACTALL([商品标题],“教师节礼物|生日礼物|乔迁礼物|儿童节礼物|结婚礼物|创意礼物|伴手礼”)

这个函数从商品标题中提取匹配的礼物类型,将其转换为“用途标签”。

在分析品类价格分布时,稀疏的价格数据无法帮助我们有效识别问题。

IFS([商品价格]<=50,”50以下”,[商品价格]<=100,”100以下”,[商品价格]<=200,”200以下”,[商品价格]<=500,”500以下”,[商品价格]<=10000,”500以上”)

除了AI,更方便的方法是使用IFS函数。它会把价格匹配范围内的数值,归类到对应的区间。

通过清洗和分类,我们和机器都看得懂了,那就能进行下一步分析了。

分析常用的图表是:趋势图、饼图、柱状图、条形图还有词云,它们能应对80%的问题,就别再波特五力我了…..

趋势的波动让我们更快发现问题,而占比及变化帮助我们聚焦重要的问题。组合图的交叉、下钻分析则是进一步识别问题了。

回到我们的分析问题上。

通过分析饼图可以发现:销量占比与分类占比大致匹配。

但在“其他”分类中,纸袋的销量有2万个,导致数据失真。

因此我剔除了纸袋类商品,重新分析装饰、文具、器皿等主要品类的销售情况。

品类主要集中在装饰(29.4%),文具(22.6%),器皿(20.17%),品类多的也是卖得好的。其中,平均价格最高的是器皿(210元),最低的是文具(76元)。

将商品收窄至分类进行后续分析,注意到右上角的按钮了吗?飞书文档生成的图表能够进行智能分析,帮助我们进一步提效。

洞察:

不同分类商品中,器皿的商品价格最高(210),但销量并非最高(877)。

首饰的商品价格(154)处于中等水平,销量(506)相对较低。

分析:

飞书多维文档

洞察:教师节礼物的销量达到1012,为所有用途中最高。

儿童节礼物的商品价格仅为35,相对较低。

基于标签生成的词云,创意部分非常奇怪,这也说明了非标的数据不适合直接提取。

最后就是输出建议了,分析必须要有观点和建议。

1)装饰、文具、器皿品类表现优异:生产得多也卖得好,装饰品类销量占比最高,达到29.4%;

3)节日影响显著:教师节销量(1012件)明显领先,价格较高的中秋礼物也表现不俗(700件),特定节日对销量有较大推动作用;

4)人群、创意数据参考意义不大:标题由于SEO仅部分有明确目标人群,创意词云较为混乱,建议选择品类Top5销量的产品定向查询。

建议:

1)考虑到定制化成本,建议在装饰、文具品类发力;

2)结合词频,前期建议优先设计泛人群的日常产品,如出行使用的包袋、家居摆放的装饰等,减少季节性和节日波动对销量的影响;

3)此外,可以基于节日主题开发成本低、生产快的产品,如圣诞节冰箱贴。

在业务量没有到达一定级别的时,别花太大的力气在高深的名词上,而且很可能名词都找错了,其次站得高不一定看得远。

本文由@Wise原创发布于人人都是产品经理,未经许可,禁止转载。

THE END
1.干净的数据:数据清洗入门与实践(豆瓣)第1章 为什么需要清洗数据 1 1.1 新视角 1 1.2 数据科学过程 2 1.3 传达数据清洗工作的内容 3 1.4 数据清洗环境 4 1.5 入门示例 5 ··· (更多) "干净的数据:数据清洗入门与实践"试读· ··· 大数据、数据挖掘、机器学习和可视化,近来计算界的几件大事好像总也绕不开数据这个主角。从统计学家到软件开发https://book.douban.com/subject/26781011/
2.数据清洗入门与实践pdf下载数据清洗入门与实践高清干净的数据 数据清洗入门与实践是一本数据清洗指导学习书籍,由美国的Megan Squie编著,本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。 最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程,适合任何一个对https://www.ddooo.com/softdown/100992.htm
3.《干净的数据数据清洗入门与实践》([美]斯夸尔(MeganSquire当当网图书频道在线销售正版《干净的数据 数据清洗入门与实践》,作者:[美] 斯夸尔(Megan Squire),出版社:人民邮电出版社。最新《干净的数据 数据清洗入门与实践》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《干净的数据 数据清洗入门与实践》,http://product.dangdang.com/23959039.html
4.干净的数据:数据清洗入门与实践数据清洗基础与实践 作者:谢东亮 ISBN:9787560654607 出版社:西安电子科技大学出版社 出版年:2019 Python 数据清洗 作者:沃克尔 ISBN:9787302609360 出版社:清华大学出版社 出版年:2022 Python数据清洗 作者:沃克尔 ISBN:9787302609360 出版社:清华大学出版社 https://www.las.ac.cn/front/book/detail?id=5400f772c88948629455c6c78921ce50
5.干净的数据:数据清洗入门与实践.pdf文章浏览阅读782次。干净的数据:数据清洗入门与实践.pdf下载链接转载于:https://blog.51cto.com/4456998/2361970_数据清洗的教程pdfhttps://blog.csdn.net/weixin_34319374/article/details/92172504
6.干净的数据:数据清洗入门与实践PDF下载内容简介 本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS https://cmsblogs.cn/3273.html
7.干净的数据:数据清洗入门与实践中文pdf扫描版[39MB]电子书下载☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持! ☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。 ☉ 本站提供的干净的数据:数据清洗入门与实践 中文pdf扫描版[39MB]资源来源互联网,版权归该下载资源的合法拥有者所有。https://www.jb51.net/books/567054.html
8.干净的数据数据清洗入门与实践.pdf下载文件名: 干净的数据 数据清洗入门与实践.pdf 附件大小: 38.78 MB 举报本内容 下载通道游客无法下载, 注册 登录 熟悉论坛请点击新手指南 下载说明 1.下载一个附件只会扣除您一次免流量下载次数或通用积分。 2.论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可(不会算多次下载次数https://bbs.pinggu.org/a-2410496.html
9.数据分析从入门到进阶的必看书单!文末附16本书的PDF下载2、《干净的数据:数据清洗入门与实践》 推荐指数:★★★☆☆ 由数据清洗开始窥窃数据分析,介绍了很多有意思的东西,轻松读物,适合没有编程基础的同学阅读学习! 豆瓣评分:评分:6.2分 优点:算是还可以的爬虫入门书籍,有技术讲解,最后也有案例说明; 缺点:内容过于杂乱,而且对于已经有编程基础的人来说非常简单,没有看https://www.shangyexinzhi.com/article/5048539.html
10.QLExpress资料入门指南:从基础到实践QLExpress 是一款高效的数据处理工具,专为专业数据分析师和数据科学家设计,简化了资料探索、清洗、分析和可视化的流程,提供强大的性能、直观的语法和丰富的整合能力。通过本文,您将从安装环境、资料导入与预处理、查询与分析,以及数据可视化等多个关键环节深入了解QLExpress,包括示例代码演示。本文还提供了实践项目案例,帮https://www.imooc.com/article/347782
11.研究生学术训练营之信息素养系列回顾(2018Python进阶之数据爬取与清洗(海南医学院副教授 余本国) 内容提要:本节课开始以统计美剧《老友记》英语台词词频的案例,对上节课关于模块的应用进行了复习,随后老师以上海外国语贴吧和研究生讲座网站为例,为同学们展示了如何利用Python快速爬取网页上的文本及数据。 https://wmcj.shisu.edu.cn/1a/15/c990a137749/page.htm
12.科学网—系统:R语言贝叶斯网络模型R语言贝叶斯模型进阶R语言本教程包括回归及结构方程模型概述及数据探索;R和Rstudio简介及入门和作图基础;R语言数据清洗-tidyverse包;贝叶斯回归与混合效应模型;贝叶斯空间自相关、时间自相关及系统发育相关数据分析;贝叶斯非线性数据分析;贝叶斯结构方程模型及统计结果作图等。教程不仅适合R语言和生态环境数据统计分析初学者,也适合有高阶应用需求的研https://wap.sciencenet.cn/blog-3539141-1414917.html
13.Python数据分析实战,小费数据集应用本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数。 一、数据来源 本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行https://www.51cto.com/article/623941.html
14.技术分析数据清洗后的深度分析与洞察:探索数据背后的故事上涨常态找变态卖空点,下跌常态找变态买补点。https://www.55188.com/thread-27847026-1-1.html
15.Spark大数据入门与实践本实训路径以任务为导向,较为全面地介绍了 Spark 大数据技术的相关知识。具体内容包括 Spark 概述;SparkRDD 编程;Spark 编程进阶;Spark SQL:结构化数据文件处理;Spark Streaming:实时计算框架:功能强大的算法库;项目案例:餐饮平台菜品智能推荐。通过练习和操作实践,帮助你巩固所学的内容。 https://www.educoder.net/paths/691
16.PQ入门手册(数据清洗手册powerquery).pdfPQ入门手册(数据清洗手册power query).pdf,PQ 入门手册 轻松入门 Excel 报表自动化利器——PowerQuery PQ in Excel By JaryYuan 目录 入门案例 5 获取文本文件 5 更改数据类型 6 将数据返回 Excel 8 连接数据类型 9 基本界面功能 11 Excel 文件的导入 11 从外部导入 11 从https://mip.book118.com/html/2023/0524/8112015120005071.shtm