编辑导语:上一篇《阿里/网易/美团/58用户画像中的ID体系建设》,笔者进行了画像体系中的地基建设,ID-Mapping体系的打通;接下来一起探究阿里、网易、汽车之家标签体系搭建方法,我们一起来看一下。
一、阿里
为打破数据孤岛,创造更大的数据价值,阿里设计了OneEntity来提供全域数据与服务;OneEntity体系主要包含统一实体、全域标签、全域关系、全域行为4大类。
1.标签分类
其中GProfile全域标签的分类,将“人”的立体刻画划分为“人的核心属性”和“人的向往与需求”2大部分,具体包含4大类:
人的核心属性,可分为自然属性、社会属性:
人的向往与需求,可分为兴趣偏好、行为消费偏好:
在以上四大类的基础上,我们又尝试根据不同的业务形态进一步细分二级、三级分类。
2.标签萃取
标签的萃取工作包含:数据采集、清洗,去噪声并统一、反复试用并确定最佳算法及模型、为模型选择计算因子并对模型中的每一个计算因子调配权重、产出标签质量评估报告以辅助验收。
我们随机抽查了若干个在用的标签,预估工作量和工作周期,一个有价值的标签的萃取,平均耗时2周。
慢的主要原因:
标签萃取过程复杂,那有什么可以参考的流程呢?
当一整套工具型产品上线之后,批量生产十几个同类型标签只需要2天左右,这是因为在补足数据源、确定业务规则、选择数据样本、选择算法与模型的过程中,减少了大量的代码开发与模型训练的工作。
在这个过程中,参与的角色也发生了变化,从原本的以数据产品经理、数仓工程师、数据科学家为主导;转变为对业务更为熟悉的业务人员、数据分析师为主导。
GRelation全域关系、GBehavior全域行为在此不再赘述。
二、网易
网易大数据融合用户娱乐、电商购物、教育、新闻资讯、通讯等多行业10+产品线,构建起全域用户画像数据,目前总标签1000+,ID量URS、phone、idfa、IMEI、oaid等均达到忆级。
1)基础标签
性别、年龄、教育背景、生活习惯(早起晚起)、地理位置(POI信息)、职业状况、经济情况(有车有房)、设备信息(手机、运营商等)、会员信息(会员等级)、衍生信息。
其中衍生标签,如评估是否已婚,在原由标签体系下没有此类标签;但可通过多个标签进行组合生成新的标签,包含是否有小孩、30岁等条件组合。
2)行为标签
3)偏好标签
包含出行购物、手机数码、家装家居、教育公益、文化娱乐、新闻资讯、金融理财、游戏竞技、动漫影视、明星艺人等维度
4)预测标签
包含利用算法进行预测生成的标签,包含是否出行、是否买车等标签。
注意:
2.标签计算
预测类标签案例:性别,主要包含三种方案:
基于上述三类算法特征结果集,对模型进行融合,然后对用户的性别进行预测,其准确率在0.6以上。
注意:需要突破的地方在于特征的稀疏性,因为ID-mapping打通后,数据覆盖率仅20%左右,严重影响了模型的整体效果。
三、汽车之家
用户画像的构建就是把用户标签分列到不同的类里面,这些类都是什么,彼此之间的联系,就构成了标签体系。
1.按用途分类
1)人口属性
用户自然属性、用户会员、用户所属年代、用户价值登记、是否增换购用户、用户分群、UVN-B用户分群、用户分层、用户流失预警。
2)网络属性
用户APP设备信息、用户PC设备信息、用户活跃时段、用户平台偏好、用户活跃类型。
3)内容兴趣偏好
4)车兴趣偏好
用户短期兴趣车偏好、用户兴趣车偏好、配置偏好、用户颜色偏好、用户购车目的、用户置换偏好、用户推荐有车、二手车用户偏好、用户购车意向、用户新旧偏好、用户购车阶段、用户有车标签、用户兴趣集中度、用户能源偏好、用户生产方式偏好。
5)金融画像
分期购车意向度、用户购买力、二手车用户购买力、用户汽车价格偏好、用户经济属性、增换购用户预测线索。
6)场景画像
用户地理位置。
2.按统计方式分类
1)统计类标签
2)兴趣类标签
3)模型类标签
基于机器学习方法进行数据建模预测用户的标签,这类标签在标签体系中占比较少,其实现难度高,开发成本高。
例如:
3.按时效分类
从数据时效上,可分为离线画像和实时画像。
离线与实时采用的构建思想相同,不同之处在于:
四、总结
各大公司的标签分类不同,现市面上有三种常用的标签分类方式:
篇幅有限,接下来继续开展标签体系建设实践篇。
数据产品索隆,坎坷的标签体系建设之路
数据产品索隆,标签体系建设流程
标签构建过程中,如何快速盘点业务及数据需求?
阿里/网易/美团/58用户画像中的ID体系建设
作者:草帽小子;公众号:一个数据人的自留地,wx:luckily304
本文由@草帽小子原创发布于人人都是产品经理。未经许可,禁止转载