「极客公开课·Live」5分钟带你复习如何确立精准「用户画像」极客公园

本次公开课,我们将邀请到友盟+首席数据架构师&数据委员会会长张金来为大家讲解到底什么是用户画像,快速建模框架,如何提高用户精准画像的的准确性,从理论到应用的一起了解用户画像。

此公开课为极客公园策划的「极客公开课Live」第十四期。本次公开课,我们将邀请到友盟+首席数据架构师&数据委员会会长张金来为大家讲解到底什么是用户画像,快速建模框架,如何提高用户精准画像的的准确性,从理论到应用的一起了解用户画像。

用户画像也叫用户标签,是基于用户行为分析获得的对用户的一种认知表达,也是后续数据分析加工的起点。从认知心理学的角度,用户标签其实与人认知世界的方式相一致,人为了简化思考,通常也会通过概念化的方式简化事物认知,这种概念认知就是标签。因此,用户画像的内容可以很宽泛,只要是对人的认知,都可以叫做用户画像。例如:今天路过这个门口三次的人,也可以是一个标签,只要他有合适的应用场景。

另外,我们需要从概念上加以区分,用户标签和用户透视,一个是个体的认知,一个是整体的标签分布,二者都经常被人统称为用户画像。今天我们在这里说的用户画像主要指标签。

一、市场细分和用户分群:市场营销领域的重要环节。比如在新品发布时,定位目标用户,切分市场。这是营销研究公司会经常用的方式。

二、数据化运营和用户分析。后台PV\UV\留存等数据,如果能够结合用户画像一起分析就会清晰很多,揭示数据趋势背后的秘密。

四、各种数据应用:例如推荐系统、预测系统。我们认为:未来所有应用一定是个性化的,所有服务都是千人千面的。而个性化的服务,都需要基于对用户的理解,前提就需要获得用户画像。

做好用户画像需要一定的门槛,一方面是数据的体量和丰富程度,另一方面是技术和算法能力。今天介绍的经验基础是【友盟+】数据,首先简单介绍一下。【友盟+】有覆盖线上线下的实时更新的全域数据资源,每天大约有14亿的设备,覆盖数百万级的网站和APP行为,这个庞大的数据量使得我们有丰富的数据资源来生产用户画像,同时又要求我们能相应的技术能力来进行处理。

结合上图,用户画像生产流程概览,我们将用户画像的生产比喻成一个流水线,就如同将矿石加工成成品的过程。用户浏览网页、使用APP、线下行为,这些数据都是矿石,需要提炼、加工成为产品,最后还要通过质检。

最后,质量检测,这一步也很重要。一个标签的质量决定了后期的应用效果,如果前期对人的分析偏了,后期结果就很难做对。

上面讲的是概念图,如果具象到实际操作中,是这样一个框架流程:

这里先留三个悬念:

悬念一:从用户行为日志开始到标签产出,为什么有两条线?

悬念二:标签体系为什么只作用在内容标注上?

悬念三:为什么下面的「评估」过程要特别标注出来?

1、从用户行为日志开始到标签产出,为什么有两条线?我们把画像分为两大类:第一类:统计型画像;第二类:预测性画像。

第二类,预测性画像。需要通过用户行为做预测,像用户的性别预测,尤其是挖掘人的内心态度。比如,用户在消费时,是激进的,还是保守的?有预测就有准确率。所以这里面有很重要的评估指标,就是正确率,也需要取样本集。这就是二者的不同,也会有不同的加工流程。

再继续介绍标签体系,因为很多同学会问到,「我应该建一个什么样的标签体系?什么样的标签体系是比较好的?」通常我们会把它分为四大类:

第一类:人口属性。比如说性别、年龄、常驻地、籍贯,甚至是身高、血型,这些东西叫做人口属性。

第二类:社会属性。因为我们每个人在社会里都不是一个单独的个体,一定有关联关系的,如婚恋状态、受教育程度、资产情况、收入情况、职业,我们把这些叫做社会属性。

第三类,兴趣偏好。摄影、运动、吃货、爱美、服饰、旅游、教育等,这部分是最常见的,也是最庞大的,难以一一列举完。

第四类,意识认知。消费心理、消费动机、价值观、生活态度、个性等,是内在的和最难获取的。举个例子,消费心理/动机。用户购物是为了炫耀,还是追求品质,还是为了安全感,这些都是不一样的。

在实际构建标签体系时,大家经常会遇到很多困惑,我列举5个常见问题。

第一、怎样的标签体系才是正确的?其实每种体系各有千秋,要结合实际应用去评估。

第二、标签体系需要很丰富么?标签是枚举不完的,可以横线延展、向下细分。也可以交叉分析,多维分析。如果没有自动化的方式去挖掘,是很难做分析的,太多的标签反而会带来使用上的障碍。

第三、标签体系需要保持稳定么?不是完全必要,标签体系就是产品/应用的一部分,要适应产品的发展,与时俱进。比如,以前没有共享经济这个词,今天却很热。我们是不是要增加一个标签,分析哪些人对共享经济的参与度高?喜欢共享单车、共享汽车。

但是,有一种情况下,标签要保持稳定。如果你生产的标签有下游模型训练的依赖,即我们模型建完后,它的输入是要保持稳定的,不能今天是ABC,明天是BCD。在这种情况下,是不能轻易对标签体系做更改的。

第四个,树状结构or网状结构?树状结构和网状结构从名字上就可以看出其分别。网状结构,更符合现实,但是层次关系很复杂,对数据的管理和存储都有更高要求。知乎,如果仔细去看它的话题设置,其实是网状的。

网状的特点就是一个子话题,父级可以不止一个,可能有两个。比如儿童玩具,既可以是母婴下分分类,也可以是玩具下的分类,它就会存在两个父节点之下。树状结构相对简单,也是我们最常用的。网状结构在一些特定场景下,我们也会去用。但是实现和维护的成本都比较高。比如,有一个节点是第四级的,但它的两个父节点一个是二级,一个是三级,结构异化带来处理上的麻烦。

第五个,何为一个好的标签体系?应用为王,不忘初心。标签是为了用的,并不是为了好玩,最好保证标签体系的灵活和细致性。

再回到刚才说的生产流程上。我先结合下面的图介绍上半边,统计型的标签是怎么去加工的。

对于这样的标签,大概需要什么流程去做呢?环节一很重要,内容标注。只有知道用户看的内容是什么,才能统计偏好。环节二,如何基于用户行为做聚合统计和归一化。

在做内容标注时,一般会有两种情况:第一种:有些公司在建自有用户画像时会很幸运,例如电商、视频类、音乐类的媒体,它给用户服务的这些内容是已经分类好的。可以直接用内容的标注来做用户行为标注。

但是,对于一些通用型的内容,比如【友盟+】的数据,会有PC浏览数据、APP的使用数据,一定要先了解用户喜欢看什么,才能去做下一步的工作。在这里面,最复杂,也最典型的就是网页的内容标注。

第一、统计量的选取。可能是浏览数量、浏览时长、浏览频度、复合关系等。举个复合关系的例子,对于某个商品类目的偏好,你可以将浏览、搜索、收藏,购买等行为统计量加权在一起考虑。

第二、个体内的可比性。个体用户的不同标签间具有可比性。举个例子,我有两个标签:阅读、旅游。我的阅读标签是0.8分,旅游是0.6分,代表我更倾向于去阅读,而不是去旅游?如何保证这一点呢?在上面公式里将个体的行为总和作为分母就可以了。

第三、垂类内的可比性。一个垂类内不同用户的相同标签具有可比性。

例如,我的动漫得分是0.8,你的是0.6,表示我比你要更喜欢动漫。那么分母就是选取整个动漫类行为的总和。比如说,今天全国用户在B站上一共100万小时,你有1个小时,你是百万分之一,他花了2个小时,大约是百万分之二,最后再做一个归一化,就会产生一个类内可比的得分。

但是排序和归一化到底有什么不同?排序只代表相对性,而刚才说归一化代表了强弱,我的得分是0.8和你是0.6,就表示偏好强度上我比你高了30%,而排序则不能反映这样的比例。

11、统计型标签生产要点回顾

1、行为数据。浏览、使用、点击、购买、LBS等,通过行为数据反映人的偏好倾向;

2、标签体系。根据实际需要进行设定。可以参考《消费者行为学》、电商类目体系、应用市场体系、媒体资讯体系等;

预测性标签的生产流程:特征抽取→监督学习、样本数据→评估→标签产出,这也是经典的机器学习流程。

特征工程,是机器学习的关键过程之一。最重要的是提取不同侧面的特征。我们以移动端使用行为可抽取的部分特征为例:

1、APP使用事实特征:用户30天内开启APP的天数、用户180天内开启APP的天数。这两个数据都会作为特征,考虑用户短期和长期的情况。

用户30天内使用APP时长占比、用户180天内使用APP时长占比。刚才说的是次数,这块是时长,用户可能反复打开,但是总时长很短。

2、兴趣特征:虽然信息有损失,但是泛化效果更好。举个例子,你是A站用户,他是B站用户,理论上讲,如果我们用最底层的数据,你们两个人是不太一样的,但某种程度上,他们都是对二次元感兴趣的人;

1、模型选择。有有监督的分类算法:逻辑回归、SVM、决策树、Bagging、深度学习;

2、二分类or多分类。二分类比较简单,多分类则有不同的拆分策略。举个例子,把人分为男女,是二分类的问题;分为年龄段,就是多分类的问题,我们在机器学习当中也有不同的做法,OvO(一对一)、OvR(一对其他)、MvM(多对多)。

3、结果评估。评估指标包括:正确率、召回率、应用效果。但是对于统计型标签来说无正确率,召回率看阈值,今天你只看一个汽车的型号,理论上我也可以给你打一个标签,但是分值非常低,这个分值到底要不要算做这个标签的人,要看中选什么样强度的人。预测型标签,一般看Precision,Recall,F-Score,ROC。

15、关于标签评估的延展

标签的生产不是目的,使用才是。正确率≠效果,举个例子:喜欢看车不代表是试驾购车的目前人群。

第一,用户分层的评估。针对于重点人群进行评估,不同人群分层进行评估;第二,从全局进行评估。不要只局限于样本集合的评估,参看一些全局统计数据。例如,人口属性的分布和统计局的结果是否相符?第三,有效果反馈的应用。将标签直接应用于使用场景中检验效果。例如,进行营销的定向投放,测试点击率;第四,利用其它数据佐证。使用其他行为数据来验证标签的有效性。例如,在电商环境中后续的行为差异来评估显著性。

我们今天不再强调标签丰富度,而是快速建模的能力。快速建模怎么做到?这套系统在【友盟+】比较完备,使得我们收到一个样本就可以很快训练模型,这个流程最快3个小时就能够把标签算出来。

Data->Insight->Action->Data->…

DIP营销服务流程

关于上述流程的实际使用,结合【友盟+】DIP数据智能平台讲一下营销服务流程是如何做的。

左上面是我们一些数据,例如:客户上传数据后,我们会有一个匹配的过程,把所有数据打通连接。上传、匹配之后,会对这些数据做人群分析。比如说宝马X1今年刚上市,他们把去年购买X1的用户都上传上来,我们会分析这样的用户在哪些方面是有特性的,比如年龄段、地域分布、收入、偏好。有了这样的分析后,我们可以选择相应的人群,基于历史的偏好、特征,然后再去投放;如果中间我们会发现人群量不够,最初选择10万人可以放大到100万人。最后输出到媒体、RTB等渠道商。做预算,看效果,将效果数据回流,再去迭代,以进一步提高投放的精准率。这是我们常用的一个流程。

基于上面的分析之后,再做结合分析。举个例子,你对科技感兴趣,那你的手机是不是到了更新期,你手机大概用了三年,应该到了更新期,就可以对这样的特定人进行投放。把人圈出来,投放、曝光,曝光之后我们去看营销的结果,然后返回来继续分析,会不会对其他内容感兴趣,再去做下一轮分析。

这就是我们之前做的一系列方法的一个应用。

最后关于数据应用我再给出一些通用型的建议:

第一、分析:

1、结合业务场景去选择分析维度:如果你是给中年妇女推荐保健品,你去分析她们喜欢不喜欢二次元,这就非常说不通了。

2、不要只是简单的看画像分布,一定要做对比。

3、例如,与大盘对比情况:TGI。上图是我们分析一个APP内的购买人群。紫色的线是人群的分布,年龄段的分布。我们看到18-30岁之间的人很多,感觉还不错。但是,如果你做一下大盘情况,APP的用户大多是年轻人,因为本身这个产品有一个年龄偏小的分布特征。通过分析对比之后发现,TGI比较高是30-39岁的人,这个范围的人才是在购买人群里面是显著的,这个群人才是你去做运营活动、投放的人群。

分析,一定要去做对比,单纯看分布是并没有太多信息含量。不对比看不出来差异。

4、环节的对比。哪些人我触达了,哪些人到这里落地了,哪些人注册了、哪些人真正浏览、哪些是留存、哪些是付费,每一个环节你都可以做这样的分析。

另外一点,直觉未必靠谱,一定要通过反馈来检测,就是刚才说我们为什么要数据闭环,比如说,有一个商品设计者说,我这个产品目标是吸引白领女性,实际上他上市场去卖的时候发现,买他的男性大学生最多,跟他想的根本不一样。

更多详细讲解,请见知乎Live

以上就是本次公开课的关键内容,更多演示请点击「极客公开课Live」第十四期或扫描下方二维码查看获取:

1

用极客视角,追踪你不可错过的科技圈.

聊科技,谈商业。

公司地址:北京市朝阳区酒仙桥路4号751D·Park正东集团院内C8座105室极客公园

THE END
1.婚恋观宣传丨拥有正确婚恋观,才能遇见“对”的人婚姻行为的价值取向 甚至影响一个人 一生的发展与幸福 近些年 关于婚恋的热议频频发生 “家长相亲” “花式催婚” “天价彩礼” “家庭劳务分工”等话题 引发广泛讨论 加剧了人们的婚恋焦虑 如何才能遇见另一半 要“爱情”还是要“面包” 到底是不是“https://mp.weixin.qq.com/s?__biz=MzA5ODM5MTIwNA==&mid=2651501036&idx=5&sn=873321c9749b0a710d3846b33ecb882d&chksm=8ab0e8b1d06c7913d664cc79aef2acac4a600d613f5d68c17ee5843435259eeef6c4b787f469&scene=27
2.男女在婚恋市场的价值各有不同她的问题,是自己没有弄明白,男女在婚恋市场的价值各有不同。 如果各取三个最核心的要素来看,男性在婚恋市场最受关注的,应该是成熟度、物质财富和能力,当然也还有其他,比如身高、家庭、学历,性能力等。 而女性的却有不同,最受关注的应该是颜值、性格、学历,也还有比如家庭环境、身高体重等。 https://www.jianshu.com/p/4362f2a27ab7
3.婚恋市场策略的转变利他属性的筹码养鱼和备胎一线城市与超一线城市30岁是女性婚恋市场的分水岭,三、四、五线城市,二十七岁后就有分水岭效应。 男女婚恋市场中女方的筹码就是利他属性:1.性价值(年龄、容貌身材、生育);2.情绪价值(体谅、关心、理解男人);3.经济价值。这是三分法;另外一种是二分法:1.情绪价值(1.性价值(年龄、容貌身材、生育);2.经济价值https://www.douban.com/note/848136825/
4.婚恋市场上大致来说,分为这三方面价值:繁衍价值生存价值婚恋市场大致分为繁衍价值、生存价值和情感价值三个方面。01 繁殖价值 它更多地指一个人在外表、体型和https://edu.iask.sina.com.cn/jy/iJTTANiJZz.html
5.万亿级的婚嫁产业,A股上市公司长什么样?科技探索财经频道『婚宴预订,可以挖掘供应链的价值』 说到婚宴预订平台的困境:阶段性、区域性。南京婚宴网CEO赵雪阳提到:我们把平台定位为南京婚宴网,看名字就知道,我们没指望短时间内拿下一个城市后快速扩张,我们坚定的认为:区域市场需要深耕。 不管你以什么样的行业去做切入口,都是希望单点突破,然后图谋整个产业链的生意。 https://www.p5w.net/news/tech/201701/t20170102_1683294.htm
6.在线婚恋遇天花板,人工智能成突破口?刘旷v的技术博客受限于男女比例和人口流动,未婚或“被迫”终生不婚,成为当下社会普遍存在的现状,庞大的单身人口数量为婚恋交友市场提供了巨大的刚需,也为在线婚恋交友市场的发展奠定了基础。 二、传统婚恋价值观与现代价值观的冲撞 随着社会的发展,无论是在工作,还是生活上,新时代男女在思想和经济上的独立意识逐渐增强,传统婚恋观也随https://blog.51cto.com/u_14869228/3522763
7.为什么男女对婚恋市场的判断差异特别大?为来自左右漫谈为什么男女对婚恋市场的判断差异特别大?为什么误判价值总是女性居多,而男性总是更能相对准确判断自身价值?造成这种现象的原因很多。有部分小仙女的主观原因,也有男女对婚恋诉求不同的原因,更有主动方与被动方样本总量差异的原因。不过今天,博主和大家讲另外一个客观原因,就是不同男女分布规矩的原因。https://weibo.com/1632408150/NdkQbdUii
8.老年人的情与欲:超8成丧偶老人有再婚意愿,银发相亲需求爆发近期,从“互联网追爱”到线下聚集相亲角,多家媒体再次将关注点对准中老年人的情感缺口,中老年群体狂热地在线上和线下空间中寻觅情感互动与情感体验,揭示了部分银发群体“缺爱”的现状,老年相亲背后潜藏着庞大的银发婚恋交友市场。 据全国老龄办预测,按照当前人口老龄化速度,2030年空巢老人将超过2亿;另据第七次人口普https://www.ageclub.net/article-detail/3848
9.大学生婚恋观调查问题8篇(全文)老师的婚恋观、婚姻状态、教育方法等都将对学生产生深刻的影响。四是社会文化因素。婚恋观是社会文化的一面镜子, 人的社会生活无时无刻不受诸多社会心理因素的影响, 大学生在这个方面尤其突出。社会婚恋价值观、社会公德与家庭伦理、新闻传媒、政府文化监管政策、文化娱乐设施、文化消费市场环境等, 都对大学生的婚恋https://www.99xueshu.com/w/file0ys8l6r4.html
10.奇瑞车多少钱一辆?为什么你的车价值已经超过你的婚姻市场价值?她们可能因为经济困难而无法进一步提升自身素质,导致她们在婚姻市场上的竞争力下降。因此,我们应该理性消费,不要为了追求虚荣而忽视自身的实际经济承受能力和婚姻的市场价值。只有在经济条件允许的情况下,才能考虑购买适合自己的车辆,提高生活质量。同时,我们也要注重自身素质的提高,不断完善自己,提高自己在婚恋市场上的https://www.yoojia.com/ask/5-14227186148665408754.html
11.男女婚恋价值蓝小依男女婚恋价值肉食前妻遇到肉食前夫,他们会干的勾当用两根指头就能数的过来。比如,将对方生吞活剥。再比如,吃饱喝足之后,考虑考虑复婚这件小事。女主属性:披着羊皮的肉食狼男主属性:披着狼皮的肉食羊众人怒:到底是言情还是动物世界?! 男女婚恋年龄差 大城市男女婚恋问题 肉食男性 什么叫肉食系 男女婚恋市场金字塔 男女https://bylwen.com/to/2824212.html
12.艾媒咨询20202021年中国移动社交行业研究报告(附下载)探探APP:力求打造真实社交,拓展平台生态价值 2020年初,探探上线“发现页”功能,并试水直播业务,力求拓宽用户社交体验。探探对技术的推进,帮助用户构建精准且有效的社交关联,满足年轻人对社交及婚恋的情感诉求,对于缓解单身社会问题及疏解年轻人心理压力起到了正向推动作用。未来,基于技术赋能,虚拟网络连接下的真实社交有望https://www.iimedia.cn/c400/76205.html
13.未婚大龄青年调查报告[摘要]发挥工会组织优势,帮助青年教职工成家成才,是高校工会的重要工作任务。本文论述了工会如何当好大龄未婚青年的“娘家人”:发挥工会组织优势,引导青年树立正确的婚恋价值观;凭借网络优势,建立青年网络联谊的长效机制;组织公益性青年联谊活动,形成正规而严谨的工作体系。 https://www.360wenmi.com/f/filejh2iqdu1.html
14.婚恋报告(范例10篇)一般来说,有付出就有收获,日常生活中,我们使用报告的情况越来越多。你是否写起报告来就毫无头绪呢?本文主要探讨的话题是与“婚恋报告”相关的,所有的建议仅供参考具体实施需要根据实际情况做出判断! 婚恋报告 篇1 婚恋观是人们价值观在恋爱、婚姻问题上的体现,随着社会主义市场经济在我国的迅速发展和西方婚恋观传入我https://www.liuxue86.com/a/5006655.html