利用MySQL对淘宝用户行为进行数据分析,在Tableau中进行数据可视化。分析步骤:
分析维度——理解数据——数据清洗——构建模型——数据可视化
三、分析维度
基于淘宝用户行为数据,从以下四个维度进行分析和解释:
第一维度:用户消费行为习惯
统计数据集中的总用户数,商品数,商品类别数,用户行为数来评估用户整体购物情况。以PV、UV、平均访问量、跳失率等指标,通过对比分析方法,探索用户在不同时期下的活跃规律,了解用户消费行为习惯。
第二维度:商品购买情况分析
从成交量、人均购买次数、复购率等指标,探索用户对不同种类商品的偏好,了解商品的销售规律,找到针对不同商品的营销策略。
第三维度:用户行为转化分析
从商品和用户两个角度分析:
用户角度,运用AARRR漏斗模型拆解用户的行为路径,确定各个环节的流失率,找到需要改进的环节。
第四维度:用户分类
基于RFM模型,对用户进行分类,找出最具有价值的核心付费用户群,从而采取针对性的营销策略进行精细化运营。
由于不同的用户对公司带来的收益差别很大,因此需要对用户进行价值评价,找到最优价值的用户群,并针对该部分用户进行差异化营销。
F-Frequency(消费频率)
M-Monetary(消费金额)
这三个维度相互关联,反映了每个用户的现在价值和潜在价值,将每个维度分为若干区间进行评分,通过计算分数找到最有价值的用户,并对用户进行分类,可以针对性的对不同类型的用户采取不同的营销策略。
五、理解数据
数据集包含了2017年11月25日到2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。关于数据集中每一列的详细描述如下:
其中用户的行为类型共有四种,分别是:
六、数据清洗
1、导入数据
数据记录达一亿条,为了提高分析效率,数据是按照用户ID排序好的,将源csv文件进行切分,取前五百万行在MySQLWorkbench中导入数据。
2、一致化处理
UPDATEusersSETdatetimes=from_unixtime(time_stamp);UPDATEusersSETdates=from_unixtime(time_stamp,'%Y-%m-%d');UPDATEusersSETtimes=from_unixtime(time_stamp,'%H:%i:%S');UPDATEusersSEThours=from_unixtime(time_stamp,'%H');处理过的数据形式:
3、异常值处理
本次分析针对的是2017年11月25日至2017年12月3日的数据,将不在此日期范围内的数据删除,共删除2632行数据。
--异常值处理DELETEFROMusersWHEREdates<'2017-11-25'ORdates>'2017-12-03';七、构建模型和可视化分析
1、用户整体购物情况
1.1统计数据集中的用户行为数,总用户数,商品数和商品类别数
1.2PV(浏览量):具体指网站的页面浏览量或者点击量,页面被刷新一次就计算一次;UV(用户数):访问网站的一台客户端为一个用户;平均访问量:PV/UV
1.3跳失率:只有点击行为的用户/总用户数
只进行浏览的用户数量为2871,因此跳失率为2871/48984=5.86%,跳出率不高,说明店铺的商品详情页能吸引用户进行下一步的行为。
1.4留存率
使用群组分析方法,按每天新增的用户进行分组,通过每天新增用户的留存率来判断平台对用户的吸引力。
由于数据集的日期截止到2017年12月3日,因此五日留存率和七日留存率会出现为0的情况。从以上数据可以看出,每日的留存率都比较高。
2、用户消费行为习惯
2.1总的用户在四个行为下的记录情况
使用查询语句分别输出用户点击,收藏,加入购物车以及购买用户数量。
2.2单个用户行为情况
2.3每天的用户行为变化
2.4每小时的用户行为变化
3、商品购买情况
3.1人均购买次数
3.2复购率:购买2次及以上用户数/总购买用户数
3.3重复购买最多的用户
3.4重复购买最多的商品
4、用户行为转化
4.1推荐量和购买量都在前十的商品种类
可以看出,用户购买的和点击的商品种类相似性很大。
4.2推荐量和购买量都在前十的商品
虽然用户点击量最多的商品种类和购买的商品种类相似度很高,但购买量和点击量都在前十的商品为空,说明推荐系统不够好,导致给客户推荐的商品不是客户真正需要的,导致点击量很高但却没有促成交易。因此需要优化推荐系统,给用户推荐他们真正想要的商品。
4.3用户行为转化率
从行为数量的角度分析:
由于收藏和加入购物车都为浏览和购买阶段之间确定购买意向的用户行为,且不分先后顺序,因此将其算作一个阶段,可以看到从浏览到有购买意向只有9.5%的转化率,当然有一部分用户是直接购买而未通过收藏和加入购物车,但也说明大多数用户浏览页面次数较多,而使用购物车和收藏功能较少,而购买次数占使用购物车和收藏功能的23.6%,说明从浏览到进行收藏和加入购物车的阶段是指标提升的重点环节。
用户购买转化率:33286/48782=68.23%
点击支付转化率:100139/4472791=2.24%处于平均水平。
从用户数量的角度分析:
从以上结果可以看出:
(1)用户点击后的流失率仅为5.89%,说明平台对用户的吸引力还是较大的,用户点击后继续下一步行动的意愿较为强烈。
5、用户分类
创建最近一次消费间隔和频率的视图:
查看R和F的取值范围:
根据消费间隔R值的取值为0-8,将其分为3档,0-2,3-5,6-8分别对应的R评分1-3;
根据消费频率F值的取值,消费次数从低到高为1-84次,将其分为4档,1-21,22-42,43-63,64-84分别对应评分1-4;
计算R值和F值的平均值:
分级:
CREATEVIEWScoreASSELECTRF.*,(CASEWHENRBETWEEN0AND2THEN1WHENRBETWEEN3AND5THEN2WHENRBETWEEN6AND8THEN3END)ASR_score,(CASEWHENFBETWEEN1AND21THEN1WHENFBETWEEN22AND42THEN2WHENFBETWEEN43AND63THEN3WHENFBETWEEN64AND84THEN4END)ASF_scoreFROMRF;用户分类:
CREATEVIEWClassfyASSELECTuser_id,(CASEWHENR_score>2.4205ANDF_score>1.0030THEN'重要价值用户'WHENR_score>2.4205ANDF_score<1.0030THEN'重要发展用户'WHENR_score<2.4205ANDF_score>1.0030THEN'重要保持用户'WHENR_score<2.4205ANDF_score<1.0030THEN'一般价值用户'END)AS用户类型FROMScore;对各类用户进行统计:
对于重要价值用户,极有可能发展成忠实用户,需要加强交流与互动,提高满意度,提供针对性服务;
对于重要保持用户,虽然最近没有购买,但以往消费频率较高,可根据以往的消费记录,主动与其保持联系,为其个性化推荐,以提高复购率;
对于重要发展用户,他们最近有购买,但消费频率不高,可以通过活动等刺激消费;
对于一般价值用户,他们最近没有购买,以往购买频率也不高,特别容易流失,可以主动联系客户,赠送优惠券或推送活动信息,唤醒购买意愿。
八、结论
1.日点击量,访问量在2017年11月25日至2017年12月1日基本平稳,而12月2日与12月3日,相对于其他日期,流量增长明显,由于2017年11月25日,11与26日,12月2日与12月3日均为周末,考虑可能是与12月2日到3日搞活动有关;
3.人均购买次数为3,跳失率为5.86%,复购率65.77%,以上指标说明网页活跃度较好,商品对用户的吸引力较大,大多数用户浏览后会收藏,放进购物车或者直接购买;
6.利用RFM模型对用户进行分类后,可知重要价值用户比较少,用户类型主要还是集中于重要发展用户和一般价值用户,建议根据用户类型,进行有针对性的精准营销。