使用Python对零售商品进行数据分析python

1、清洗数据。将列名统一修改、处理缺失数据和异常数据、转换日期等数据类型

2、查看总体销售情况

3、商品维度进行分析。主要分析内容有:商品价格分析,商品销售量、销售额情况分析,商品关联分析

Python

该数据集包含2018年6月1日-2018年7月5日的公司零售的交易信息。

从图片中初步可以看出数据集可能存在的异常数据以及需要进行初步处理的地方有以下几点:

1)数据表中的SDATE字段需要将数据类型转换为日期型方便后续计算;

2)数据表中的ITEM_SPEND字段有负值,即商品实付金额为负,为异常数据;

3)数据表中的ITEM_QUANTITY字段有负值,即商品数量为负,为异常数据;

4)数据表中的DISCOUNT_AMOUTN字段数据有正值,即折扣后金额比折扣前金额高,为异常数据。

5)为方便阅读与查看,将列名统一改为符合驼峰命名法

item.columns=['shop_date','store_id','pos_id','user_id','prod_id','item_quantity','item_spend','normal_price','discount_type','discount_amount']

item.apply(lambdax:sum(x.isnull())/len(x),axis=0)

(1)查看数据表类型

如图可发现数据中没有缺失数据,因此不需要进行缺失值处理

(2)转换数据类型

数据类型中的object表示如果一列中含有多个类型,则该列的类型会是object,同样字符串类型的列也会被当成object类型,因此object类型中SDATE数据类型应为日期类型,此外数值类型由于涉及零售的金钱问题,也应都调整为两位小数。

因此最终数据表数据类型需要调整的地方主要有以下几点:

#日期数据类型item.shop_date=pd.to_datetime(item.shop_date)#金钱保留两位小数pd.set_option('display.float_format',lambdax:'%.2f'%x)#将所有数据转换为两位小数(3)查看修改后数据表数据类型

根据上一小节对数据的初步查看发现的问题进行操作,在上一小节中发现数据表中商品数量、订单总金额、商品实付金额均有负值,且折扣金额为正,折扣金额的计算可能受到金额为负的影响,此外,数据也可能存在空值。因此,异常值的删除主要有以下几个操作:

1)将商品数量、订单总金额、商品实付金额为负值的调整为正值;

2)新建销售总金额字段:销售总金额=单价*数量根据修改后的数据进行折扣金额的计算:折扣金额=销售总金额-实际付款金额(ITEM_SPEND),与实际折扣金额不同的可以判定为异常数据,进行删除操作;

3)删除过后分析是否还存在折扣金额为正的数据,若存在,也进行删除操作。

最后发现不存在折扣金额与实际折扣不同的数据,可以判定无异常值。

由总体销售情况分析可知,商店在2018年6月1日-2018年7月5日共有280878个用户进店购买过商品,总销售额为22216624.17元,有流水的商品数共19261个。

(1)商品价格分析

由初步价格箱型图可知,客户比较青睐店铺内的低价商品,且由此图无法很明显的看出商品价格具体情况,因此下面将商品价格为0-50的价格提取出来进行分析

#求商品价格的四分位数df_1=pd.to_numeric(item_normal['normal_price'])q=[df_1.quantile(i)foriin[0,.25,.5,.75,1]];q[-1]+=1q[0.5,3.6,7.0,13.8,51.0]由最后的箱型图可知,商品价格最多的在3.6元~13.8元之间,也符合消费者在零售商店购买的商品价格会比较低,店家可以根据消费者的消费情况对商品进行调整,多上架一些平价、常用的商品供消费者选择。

(2)查看销量排名前十和最后的商品

本小节分析了商品销售量前10和商品销售量最后的商品数量,此外将商品销售量前10的商品绘制柱状图进行分析。

(3)查看销售额排名前十和后十的商品

本小节主要分析了商品销售额前10和商品销售量后10的商品,此外将商品销售量前10的商品绘制柱状图进行分析。由图表可知,前3销售量的商品很明显比后面商品销售额多,差别至少为50000以上,而商品销量最后的商品仅仅在1元左右,这些商品无论是数量还是销售额都很少,商品可能存在问题。

(4)查看销售量与销售额关系

由于商品销售量最后的销售量为1,数量共2673个,因此查看销售量最后2673个商品中同时销售额在后10的商品,发现销售额最后的商品均为销量为1的商品,本小节查看了销售额和销售量最后的商品编号,找出之后根据具体的商品,找出原因,考虑如何优化或者是否要下架。

(5)商品关联度分析

从以上的结果可以总结出:

从总体上看,所有组合商品中支持度数值偏低,这是由于平台销售的商品种类繁多,也可能是用户同时购买两个商品的可能性低,需要进一步进行分析;

商品组合[1570]-->[1557]的置信度最高,表示支持率在1%的情况下购买商品编号1570的用户中有70%会购买商品编号1557,可以对这两种商品进行捆绑销售;

进行店铺维度的分析可以分析各店铺销售情况,判断哪些店铺销售情况不好,考虑是否需要对店铺员工进行培训或裁员。

(1)店铺销售量情况分析

本小节分析了商品销售量前10的店铺,可以发现商品销售数量前2的店铺销售量远超过后面的店铺,超过150000个商品,说明D002和A001两个店铺商品数量销售情况很好。

本小节分析了商品销售额前10的店铺,进行图表分析,可以发现A001和D002两个店铺销售额远超其他店铺,至少超过了2000000元,根据上小节分析,这两个店铺销售量与销售额均远超其他店铺,说明两个店铺销售情况良好。

(2)店铺促销情况分析

(2)销售额分析

由图表可以看出,周一至周五的下单量在一条线上下波动,没有很大的起伏,周六和周日两天的下单量远远高于周一至周五的下单量,高出了至少50000单,销售额也是同样的趋势,超出了至少400000元,可以看出一般周末用户的下单量与交易额会远远高于工作日的下单情况,商家可以考虑在周末多上一些商品供用户选择。

(3)每日销售额/销售量分析

本小节分组计算了日销售额与日销售量的数据,并绘制了折线图进行趋势对比分析,由图中可知,销售量与销售额的趋势几乎相同,且均在2018年6月16日达到最高,。

(4)周均消费次数/金额

总订单数280878次

周数6周

周均消费次数46813次

周均消费金额为:3702770.0元

(5)客单价

商场(超市)每一个顾客平均购买商品的金额,客单价也即是平均交易金额。

客单价为:79.0元

(1)用户角度分析

从用户角度看,每位用户平均购买8.83单位的商品,最多的用户购买了6581个商品,属于狂热用户。用户的平均消费金额(客单价)79.1元,标准差是291.24,结合分位数和最大值看,平均值和50~75分位之间的接近,肯定存在小部分的高额消费用户。

(2)按周维度分析

按周统计每周的商品销量和销售额。从图中可以看到,销售量和销售额趋势相同,没有什么异常的地方,前几周销量比较平稳,甚至有些下降,而后面几周销量逐渐高涨,可能是商店逐渐被用户所认可。

(3)观察用户消费购买力

左边的直方图的x轴代表item_spend的分组,一共30组。y轴代表item_spend中对应到各个分组的频数。从直方图看,大部分用户的消费能力确实不高,高消费用户在图上几乎看不到。这也确实符合消费行为的行业规律。

(4)分析用户的复购率

图上复购率可知复购率一直在62%以上,可能因为是零售商店,用户会经常购买商品,尤其到最后几周复购率更高,可能因为用户已经开始信任店铺

(5)用户RFM分析

通过RFM方法,我们根据用户购买商品的数据进行分析,对用户进行了归类。在促销等很多过程中,可以更加精准化,针对不同类别的用户进行不同的符合其特点的促销方式和销售方式,不至于出现用户反感的情景。

THE END
1.分享一些成功的电商数据清洗案例对标记的异常交易数据进行人工审核,区分真正的异常交易(如高端定制商品的高价交易)和疑似刷单数据。对于确认的刷单数据进行删除处理,共清理了约 2% 的异常交易数据,有效净化了交易数据环境。 三、清洗效果 数据分析准确性提升 在进行数据清洗后,企业对销售数据的分析更加准确。例如,在计算商品的平均售价和销量趋势时,https://www.jianshu.com/p/1ed5b1a7088c
2.一文带你看懂数据清洗的六大问题!(附工具推荐)数据清洗重复数据这个环节通过将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或去除,从而提升数据质量,提供给上层应用调用。它可以有效处理数据的常见问题:数据缺少值、数据值不匹配、数据重复、数据不合理、数据字段格式不统一、数据无用。 数据清洗步骤 https://blog.csdn.net/m0_59164520/article/details/142602189
3.数据清洗是什么?盘点5款常见的数据清洗工具!一句话概括:适合初学者和简单数据处理任务,但在处理大规模数据和复杂任务时有限制。 说到Excel ,大家都不陌生,可以说是最基础最简单最小白的数据清洗工具,尤其是对于初学者或者进行简单数据处理的任务来说,是一个很好的工具。例如,在处理一些小型的销售数据统计时,Excel 可以方便地进行数据的排序、筛选和简单的计算。https://www.fanruan.com/bw/doc/180958
4.如何高效整合吉客云销售数据到MySQL数据库综上所述,通过合理配置API请求参数、实现分页抓取、进行数据清洗转换以及设计完善的异常处理机制,我们可以高效稳定地从吉客云·奇门系统中获取销售单信息,并为后续的数据写入做好准备。这一步骤不仅是整个集成流程的重要环节,也是保证数据质量和完整性的关键所在。 https://blog.51cto.com/u_17075337/12736119
5.大数据分析对企业营销有哪些帮助2.数据清洗 数据清洗是指对收集到的数据进行处理,去除无用数据、纠正错误数据、填充缺失数据等,以确保数据的质量和一致性。在进行数据清洗时,需要使用各种工具和技术,如数据挖掘、机器学习、自然语言处理等。 3.数据处理 数据处理是指对清洗后的数据进行加工,以便进行后续的分析和挖掘。数据处理包括对数据进行转换、聚https://www.linkflowtech.com/news/2697
6.数据资产企业内部数据价值如何挖掘?焦点企业内部数据价值挖掘是指通过分析和处理企业内部积累的大量数据,提取有价值的信息,以支持决策制定、优化业务流程、提高运营效率和创造新的商业机会。以下是企业内部数据价值挖掘的几个关键步骤和实践: 一、数据整合与清洗: 首先,企业需要整合来自不同来源的数据,如销售、财务、人力资源、客户关系管理(CRM)等系统。 http://www.databanker.cn/info/354128
7.Prompt用得好,增长工作下班早1.数据清洗 你是一位资深数据分析师,具备深厚的数据分析技能与行业经验。你擅长应用各种数据分析工具和技术,对数据进行挖掘、整合、分析,现在我有一份销售数据,是jason格式的,帮我把数据处理一下,直接输出表格。 2.找数据分析思路 你是一位XX行业的市场营销分析专家,请根据这份数据集合,给出4个不同方向的分析主题https://www.niaogebiji.com/article-645093-1.html
8.python分析每月销售数据如何用Python分析销售数据.pdfpython分析每月销售数据-如何用Python分析销售数据.pdf,python分析每?销售数据_如何?Python分析销售数据 数据分析的基本过程分为五个部分 :提出问题、理解数据、数据清洗、构 模型、数据可视化。下?我以前四部分为基础,对?个销售数据 进?分析。 1 提出问题https://m.book118.com/html/2023/0717/8136125107005111.shtm
9.“武陟县域就业岗位每周送”武陟县人社局2023年05月01日收集1、负责公司医疗器械产品的销售出库、开票申请等相关工作; 2、负责销售产品的资料、合同的准备和管理; 3、负责已发货物的跟踪,已发快递/物流的登记; 4、负责下游商业客户的对账、销售数据分析、业务费用初审工作; 5、负责公司来访客户的接待工作。 任职要求: https://wzjob.jzggjy.com/news/detail/304033.html
10.DataBand:DataBand(数据帮),快速采集清洗,任务管理,实时流和批DataBand数据帮 轻量级一站式大数据分析平台 项目启动于2020-10-26,持续更新中。 完整开发使用文档 详情开发使用介绍 介绍 DataBand(数据帮),快速采集清洗,任务管理,实时流和批处理数据分析,数据可视化展现,快速数据模板开发,ETL工具集、数据科学等。是轻量级的一站式的大数据平台。我们致力于通过提供智能应用程序、数https://gitee.com/475660/databand