聚类分析在用户分类画像中的应用——基于心理统计学的应用思路与案例解析算法样本

编辑导语:聚类分析是对样本或指标进行分类的一种统计方法,它能帮助我们窥探不同人群之间的数据差异,也被应用于基于定量数据的用户分类实践中。本文作者结合某金融借贷服务流程再设计中的用户分类案例,阐述了聚类分析在用户画像中的应用,一起来看一下吧。

聚类分析(Clusteranalysis)是对样本或指标进行分类的一种统计方法,属于探索性的数据分析方法。

聚类分析将看似无序的对象(如桌子、人、树木、情绪、观念等)进行分组、归类,按照个体或样本的特征将其分类,使得同一类别下的个体具有尽可能高的同质性,而不同类别/组别之间则是尽可能高的异质性,以更好地理解研究对象。

物以类聚,人以群分。借助聚类分析算法,可以帮助我们窥探不同人群之间的数据差异(如图1)。因此,此种方法也被应用于基于定量数据的用户分类实践中。

图1:二维(2个变量)下的聚类分析示意图

然而,由于聚类分析所使用的数据并没有明确的分类,聚类分析后的类别数量也是未知的。

即:我们不知道用来聚类分析的样本大概有什么分布,也不了解系统会将其分成哪几类,事先可能也没有任何有关类别信息供参考。

以下结合某金融借贷服务流程再设计中的用户分类案例,来具体阐述聚类分析在用户画像中的应用。

01聚类分析适用的数据类型

聚类分析所应用的数据类型主要为多维度、连续/等级/分类变量,且要求数据量足够大、客观可测量,因此,较为适合应用于研究者已拥有海量、多维度用户客观数据的情况。

聚类分析介入用户分类的程序:在用户研究工作中,用户分类可以基于定性或定量数据来进行,但最终会收敛为一个具体、明确、符合经验的分类模型,使之能够服务于未来的产品设计与运营。如图2:

图2:2019微众银行用户调研之人群画像

仅依靠数据无法帮助我们定义和解释不同类别下的样本轮廓,也无法将统计结果直接运用于生产设计和运营活动中。

因此聚类分析的方法应当结合前后期的定性研究(如产品走查、用户访谈、内部访谈、观察、工作坊等)和定量研究(问卷调查、拦访调研、接受度测试等)而进行。在本案例中,研究者采取了先定性,后聚类,再补充定量的方式,来形成和运用聚类分析的结果,如图3:

图3:金融借贷服务流程再设计-用户画像创建流程

再者,从机器学习角度上来说,聚类分析是一种无监督学习unsupervisedlearning,根据不同的数据选取策略和不同的聚类算法,系统会给出不同的分类模型。

至于哪个模型是贴合研究实际的“最优解”,需要研究者自行决定。这意味着在做用户分类时,我们所依赖的工具需要在研究者所提供的浩如烟海的数据当中根据数据的分布形态,逐渐探索出数据的分类形态,因此最终数据分类的结果质量对研究者对数据的理解、把握和解读有着更高的要求。

这要求研究者在使用数据进行聚类之前,应当对数据的业务内涵具有相当程度的把握和敏感性。

02聚类分析用于用户分类的操作流程

1)样本数据选择

根据前期的定性研究和已经生成的假设,选择能够用来描述和定义用户的数据维度。在本案例中,通过定性访谈、内部访谈等研究,研究者已经得知,不同用户在借贷周期、借贷金额、还款履约行为、犹豫周期上存在着很大差别,因此,研究者可以有目的地选择可能有用的数据。可以列出所需维度的数据清单,向数据负责人获取。

图4:某银行金融产品用户标签体系

2)样本数据清洗

这一步骤的目的在于去除缺省值、异常值、不合理值、非研究范畴值,研究者可以根据项目的实际需求,去除可能成为干扰项的数据。如:对收入进行标准化处理,剔除3个标准差外的异常值,去除超越研究范畴(如60周岁以上)的样本。

注意保存清洗逻辑并在团队成员间共享,以便随时恢复被误删除的数据。

3)数据编码及标准化

涉及到数据类型的转换和数据可读性的调整,由于聚类分析需要用到一定规模的连续变量和分类变量,对于一些界定模糊的变量,需要团队成员商议后给予其明确的数据类型定义,并给出相应的定义值。此外,注意保存这些编码逻辑,业务数据往往夹杂着诸多术语和缩写,研究员需将其转为易读的符号并加以记忆。

如图5,本案例中,申请类型、进件渠道、还款方式属于分类变量,B卡评分描述了用户的信用程度,则可以定义为等级变量或连续变量。

图5:金融借贷服务流程再设计-原始数据编码逻辑片段

此外,为了顺利进行聚类分析算法的运转,需将不一致的数据单位调整为一致的、标准的计量单位,如:将“利率”统一转化为“月利率”或“年利率”。

4)变量处理与提取特征

这一步骤目的在于使冗余的数据得到凝缩和降维。

5)选择聚类分析算法

在SPSS统计分析软件中,常用的聚类分析算法包含二阶聚类twostep、K-均值聚类K-means、系统/层次聚类Hierarchical。不同聚类分析的算法逻辑不同(本文不再赘述)所需要用到的变量类型也有所不同,适用的样本群体也略有差异。研究者可根据项目的实际需要来选择相应的算法。如图6:

图6:根据项目实际需要选择相应算法

本案例中,研究者选择了二阶聚类算法,这种算法无需人为设定最终分类个数,有助于实现对人群样本聚类的探索。

6)选择变量进行聚类——检验模型效果

这一步骤是漫长的探索过程,需要研究者不断尝试,选择适量的变量进行聚类分析运算,并检视模型质量和前期研究的适配度。研究者往往需要尝试几十、几百次的更换变量、修改参数,才能得到一个聚类质量较高、模型解释力强的分类模型。

本案例中,研究者选择了B卡评分、还款方式、累计逾期次数、利率、使用率(用款金额占授信额度的占比)、收入、月利息共7个变量,包含连续变量和分类变量,最终得到图7的聚类模型。研究者可以在“模型摘要图”打开模型浏览器,看到聚类质量、聚类大小等图表形式结果(图8)。

图7:模型摘要图

图8:聚类质量、聚类大小图表

03聚类分析结果应用

得到聚类分析的模型结果,通过模型中呈现的不同变量(含用于聚类分析的变量,和用于描述各分类的其他变量)的数值及分布,可以描述出不同类别用户的特征,而每一类用户会有个别较为突出的显著特征,如图9:

图9:某银行金融产品用户标签体系

通过提取不同类别用户的关键特征,结合聚类分析前所获得的定性调研结果及经验,研究者与行方共同探讨定义出了这5类用户的内涵与外延。如图10:

图10:用户的内涵与外延

为了便于业务理解和应用,进一步加工该分类,将这五类用户放在“风险-收益”两个独立维度中进行描述,如图11:

图11:用户进一步分类

如此,业务方得以了解各类用户对于银行借贷金融业务的价值与风险、期待与需求,基于此描述,我们可以进一步制定针对不同用户的营销和服务策略。

得出用户分类的基础画像后,可以再次使用访谈、工作坊、定量问卷等方式加以补充描述,本文不再赘述。

THE END
1.数据清洗的概念常见问题及实践方法数据已成为企业和组织决策的重要依据,然而,原始数据往往存在各种质量问题,如缺失值、错误值、重复数据等,这些问题严重影响了数据分析的准确性和可靠性。数据清洗作为数据预处理的关键环节,能够有效地解决这些问题,为后续的数据分析和挖掘打下坚实的基础。 今天,让我们一起了解数据清洗的概念、常见问题及实践方法。 https://blog.csdn.net/weixin_44958787/article/details/141850204
2.pythonpython葡萄酒国家分布情况数据分析pyecharts可视化二、设计思路 好的,结合上述代码,我们可以从数据读取、数据清洗和数据处理三个方面详细讲解代码的设计思路和实现过程。 1. 数据读取 数据读取是数据分析的第一步,代码中通过两种方式读取 CSV 文件的数据:使用csv模块和pandas库。 使用csv模块读取数据 import csvfilename = 'winemag-data.csv'with open(filename, https://developer.aliyun.com/article/1581254
3.实施数据分析项目有哪些流程?从数据准备到解决方案全面解析!在数据清洗层,我们对原始数据进行初步处理,移除异常值(例如,观看时长超过24小时或地理位置数据异常的记录)。这一步骤对于确保后续分析的准确性至关重要。 数据汇总层 数据汇总层根据分析需求,将用户行为按照特定主题进行聚合,形成轻量级的聚合指标表。例如,在直播应用项目中,我们可以将用户的登录、订阅、观看、弹幕和送https://www.fanruan.com/bw/bd-sjfxxmss
4.基于Python技术的电商个性化推荐系统的灵感来源python商品推荐数据清洗 数据可视化及分析 结论与建议 分析思路 其实就今天的数据来讲,我们主要做的是探索性分析;首先梳理已有的字段,有标题(提取出品类)、价格、销量、店铺名、发货地。下面来做一下详细的维度拆分以及可视化图形选择: 品类: 品类销量的 TOP 10 有哪些?(表格或者横向条形图) https://blog.51cto.com/u_14152/11729805
5.小浣熊家族:自媒体新手的快速成长指南AI程序员海军分析思路 数据收集 收集各大自媒体平台的用户数据、内容数据、活动数据等 数据来源包括平台后台统计、第三方数据分析工具、问卷调查等 数据清洗 对收集到的数据进行清洗,去除重复和无效数据 确保数据的准确性和一致性 数据分析 使用数据分析工具(如 Python、R、Excel 等)进行数据处理和分析 https://xie.infoq.cn/article/66e2c96a2abe28aa81fd4c129
6.帆软FineBI数据编辑,帮你省下80%浪费在数据处理的时间!②历史步骤可见,让分析思路可回溯,处理过程变透明 用Excel做分析存在一个明显的弊端就是操作步骤不可见,不知道中间做了哪些步骤,如果想查看计算逻辑,只有两个方法:要么CTRL+Z回退,要么点进函数一个一个查看。 FineBI的数据编辑,可以针对历史操作步骤进行追溯、灵活调整历史操作步骤,解决历史操作不可见的问题。对于个人https://www.360doc.cn/mip/1132147943.html
7.Prompt用得好,增长工作下班早1.数据清洗 你是一位资深数据分析师,具备深厚的数据分析技能与行业经验。你擅长应用各种数据分析工具和技术,对数据进行挖掘、整合、分析,现在我有一份销售数据,是jason格式的,帮我把数据处理一下,直接输出表格。 2.找数据分析思路 你是一位XX行业的市场营销分析专家,请根据这份数据集合,给出4个不同方向的分析主题https://www.niaogebiji.com/article-645093-1.html
8.www.ptzfcg.gov.cn/upload/document/20180724/0279275ee54644f69.2投标人应在投标截止时间前按照福建省政府采购网上公开信息系统设定的操作流程将电子投标文件上传至福建省政府采购网上公开信息系统,同时将投标人的CA证书连同密封的纸质投标文件送达招标文件第一章第10条载明的地点,否则投标将被拒绝。 10、开标时间及地点:详见招标公告或更正公告(若有),若不一致,以更正公告(若有)http://www.ptzfcg.gov.cn/upload/document/20180724/0279275ee54644f6adb79e806e1b3734.html
9.图像数据清洗方法.pptx数智创新 变革未来图像数据清洗方法 图像数据清洗简介 数据清洗必要性 常见图像数据问题 数据清洗基本流程 图像预处理技术 图像噪声处理方法 图像标注修正技术 总结与展望Contents Page目录页 图像数据清洗简介图像数据清洗方法 图像数据清洗简介图像数据清洗简介1.图像数据清洗的定义和重要性:图像数据清洗是指通过一系列技术https://max.book118.com/html/2023/1110/7116145134006004.shtm
10.请问机场出租车相关的数据在哪找得到?因此,针对异常数据的清洗是在数据的正式处理分析之前必须做的重要步骤。缺少这一步骤,在后续的处理中很可能产生错误的分析结果。在出租车GPS数据中也不可避免地存在一定的数据异常。这里我们以数据中存在的异常载客状态为例,介绍数据异常的情况以及数据清洗的思路。https://www.yoojia.com/ask/17-11950137789821619087.html