深度学习应用篇推荐系统[11]:推荐系统的组成场景转化指标(pv点击率,uv点击率,曝光点击率)用户数据指标等评价指标详解腾讯云开发者社区

个性化推荐系统是信息过滤系统(InformationFilteringSystem)的子集,它可以用在很多领域,如电影、音乐、电商和Feed流推荐等。个性化推荐系统通过分析、挖掘用户行为,发现用户的个性化需求与兴趣特点,将用户可能感兴趣的信息或商品推荐给用户。与搜索引擎不同,个性化推荐系统不需要用户准确地描述出自己的需求,而是根据用户的历史行为进行建模,主动提供满足用户兴趣和需求的信息。

1994年明尼苏达大学推出的GroupLens系统一般被认为是个性化推荐系统成为一个相对独立的研究方向的标志。该系统首次提出了基于协同过滤来完成推荐任务的思想,此后,基于该模型的协同过滤推荐引领了个性化推荐系统十几年的发展方向。

传统的个性化推荐系统方法主要有:

(一)、画像

1、定义:画像指的是从用户产生的各种数据中挖掘和抽取用户在不同属性上的标签,如年龄、性别、职业、收入、兴趣等。

2、画像生成路径

3、画像分类

按照数据类型划分:(目前使用较多的分类)

按照画像性质进行划分

在以上的三种画像分类中定性画像,是通过用户的行为习惯,挖掘出的标签信息,一般可以深入继续挖掘用户的动机,但这类的画像标签,一般无法用数据直接验证,只能定性理解。与定性画像不同,定量画像有充分数据验证,可以通过数据统计和分析来进行验证,但他对统计的要求比较高,且一般难以挖掘用户情感倾向和行为操作背后的原因和深层次的动机。最优的方法就是第三种将二者结合起来的方法,这种方法既能通过数据描述也能从用户行为中验证画像的准确性,但将二者结合的方法会存在工作量大的问题,且定性画像与定量画像之间可能存在相悖的结论,需要较为丰富的经验进行论证。

4、画像验证

准确率指的是被打上正确标签的用户比例,准确率是用户画像最核心的指标,一个准确率非常低的标签是没有应用价值的。通常会通过以下两种方法来评估标签的准确率

(二)、召回

3、常用召回方法:

基于地域召回:计算用户和内容的位置信息,以地理位置作为匹配关联的核心因素,进而圈选出相匹配的用户和内容

协同召回(基于用户和内容两种召回方法):主要分为基于用户的协同召回和基于内容的协同召回两种方法,以基于用户的协同召回为例进行说明:

当需要对用户A进行推荐时,找到和A有相似兴趣的其他用户群B,把B喜欢看的,而A还没有看过的内容进行召回,进而推荐给A用户

(三)、排序

1、定义:是推荐系统中召回后的一个模块,主要是一个或多个指标为依据,进行打分,一般将得分按照倒序进行排列

2、排序的作用

3、衡量指标

CTR(ClickThroughRate):当给用户推荐他真实喜欢的内容时,用户就会产生比较大的点击意愿,进而产生较高的点击。

PV(访问量):PageView,即页面浏览量或点击量,用户每次刷新即被计算一次。

pv点击率是比较经典的指标,计算用户每次进入页面的情况。他能粗略衡量转化的效果,但是它缺点也比较明显:少数用户贡献大量点击会影响这个指标的作用效果。

UV(独立访客):UniqueVisitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只会被计算一次。

分母是整个产品的uv,而不是有点击行为的uv。uv点击率相对于pv点击率的优势在于,它不受用户行为路径影响(不受重复浏览某个产品的影响),能记录用户在一个完整session的点击效果。据了解好多互联网公司的分析指标也将pv点击率给为uv点击率了

曝光点击率适合支持上拉、下拉翻页的产品。相比pv点击率,曝光点击率随用户刷屏次数增大而变大,能更真实记录每一屏的转化情况。

转化率:指在一个统计周期内,完成转化行为的次数占推广信息总点击次数的比率。

与uv转化率相对的是页面流失率。uv转化率衡量对用户的转化情况,通过我们的产品设计能把多大比例的用户从一个场景转化到我们希望的另一个场景里面去。uv转化率相对于前面两个指标,更靠得住,不容易受到挑战。

uv转化率尤其衡量入口型产品,比如视频app的首页,如果用uv点击率去衡量就不太科学,因为一般用户在首页点击某个视频后,会进入下一层页面深度消费,很少会返回首页继续消费,这个用户已经被转化,但不再贡献点击,所以uv转化率更加合理。

如果某页面的转化率较低,则表示大部分人对该页面不感兴趣,遵循“不行就分”的简单原则,这样的页面去掉可能对产品更好。

人均点击次数与uv转化率相辅相成。uv转化率表示页面的消费宽度(吸引用户的比例),而人均点击次数表示页面的消费深度(每个用户的消费的次数)。

内容消费型产品,点击率很难反应推荐的真正效果,把用户骗进了希望的场景消费,但是发现真相的用户转身就走,这反而说明这个推荐是失败的。所以需要引入停留时长来量化用户消费效果。音频类的就对应播放时长。

由于停留时长受视频时长的锚定效应影响,稍长一点的视频,即使用户不感兴趣,但是平均来说也会比短视频要停留更长一些。因此,播放完成指标就能一定程度上去弥补这个问题,但是短视频天然的完成率要比长视频高,也是需要在看指标时注意。

Holdout检验是基础的离线评估方法,它将原始的样本集合随机划分为训练集和验证集两部分,比如70%训练集,30%测试集(但现在很多机器学习框架、深度学习框架中都增加了验证集,即将整个数据集分成三份,70%训练集,10%验证集,20%测试集)。

Holdout检验的缺点也很明显,即在验证集上计算出来的评估指标与训练集和测试机的划分有直接关系,如果仅进行少量Holdout检验,则得到的结论存在很大的随机性(在划分数据集的时候尽量保证其随机性)。

先将全部样本划分成k个大小相等的样本子集,依次遍历这k个子集,每次都把当前子集作为验证集,其余所有子集作为训练集,进行模型的训练和评估,最后将所有次的评估指标的平均值作为最终的评估指标,在实际经验中,经常取值为10。

不管是holdout检验还是交叉检验,都是基于划分训练集和测试集的方法进行模型评估的,当样本规模比较小时,将样本集进行划分,会进一步缩小训练集,有影响模型的训练效果。

自助法(Bootstrap)是基于自助采样法的检验方法:对于总数为n的样本集合,进行n次有放回的随机抽样,得到大小为n的训练集,在n次采样过程中,有的样本会被重复采样,有的样本没有被抽出过,将这些没有被抽出的样本作为验证集进行模型验证,就是自助法的验证过程。

离线评估是针对系统自身的推荐算法模型的评估,通过评估具体指标来选择合适的推荐算法;推荐系统从接收数据到产生推荐结果,再根据结果的硬性从新修改参数,而这个过程是通过机器学习训练得出的模型主要有以下评估指标:

分类准确率是指分类正确的样本占总样本个数的比例:

为被正确分类的样本个数,

为总样本个数,准确率是分类任务中比较直观的评价指标,但其优缺点也明显。

排序模型中,通常没有一个确定的阈值把预测结果直接判定为正样本还是负样本,而是采用TopN排序结果的精确率(Precision@N)和召回率(Recall@N)来衡量排序模型的性能,即认为模型排序的TopN的结果就是模型排定的正样本,然后计算精确率和召回率。

精确率和召回率是矛盾统一的两个指标:为了提高精确率,分类器需要尽量再“更有把握时”才把样本预测为正样本,但往往因为过于保守而漏掉很多“没有把握”的正样本,导致召回率降低。

因此使用F1-score进行调和(也叫F-measure),定义为:

RootMeanSquareError,RMSE经常被用来衡量回归模型的好坏,使用点击率预估模型构建推荐系统时,推荐系统预测的其实是样本为正样本的概率,RMSE被定义为:

是第i个样本的真实值,

是第i个样本的预测值,n为样本的个数。

一般情况下能够很好的反映回归模型预测值与真实值的偏离程度,但在实际应用时,如果存在个别偏离程度非常大的离群点,那么即使离群点的数量非常少,也会让RMSE指标变得很差

为了解决这个问题,引入了鲁棒性更强的平均绝对百分比误差(MeanAbsolutePercentError,MAPE)进行类似的评估,MAPE定义如下:

相比RMSE,MAPE相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响。

LogLoss,在一个二分类问题中,LogLoss定义为:

其中

为输入实例

的真实类别,

为预测输入实例

是正样本的概率,N为样本总数。

LogLoss是逻辑回归的损失函数,大量深度学习模型的输出层是逻辑回归或softmax,因此采用LogLoss作为评估指标能够非常直观的反映模型损失函数的变化,站在模型的角度来讲,LogLoss非常适于观察模型的收敛情况。

P-R曲线的横轴是召回率,纵轴是精确率,对于一个排序模型来说,其P-R曲线上的一个点代表在某一阈值下,模型将大于该阈值的结果判定为正样本,将小于该阈值的结果判定为负样本时,排序结果对应的召回率和精确率

整体P-R曲线是通过从高到低移动正样本阈值生成的,如下所示:

P-R曲线下的面积(AreaUnderCurve,AUC)能够量化P-R曲线的优劣,AUC越大,排序模型的性能越好。

ROC曲线的横坐标时FalsePosotiveRate(FPR,假阳性率),纵坐标时TruePositiveRate(TPR,真阳性率),FPR和TPR的计算方法如下:

上式中P是真实的正样本数量,N是真实的负样本数量,TP指的是P个正样本中被分类器预测为正样本的个数,FP指的是N个负样本中被分类器预测为正样本的个数。

ROC曲线的绘制和P-R曲线一样,通过不断移动模型正样本阈值生成的,ROC曲线下的面积就是AUC

平均精度均值(MeanAveragePrecision,mAP)是另一个在推荐系统、信息检索领域常用的评估指标,该指标其实是对平均精度(AveragePrecision,AP)的再次平均。

假设推荐系统对某一用户测试集的排序结果如下所示:

推荐序列

N=1

N=2

N=3

N=4

N=5

N=6

真实标签

1

0

其中,1代表正样本,0代表负样本

那么对于上述的序列,precision@N分别是多少呢?

precision@N

1/1

1/2

1/3

2/4

3/5

4/6

AP的计算只取正样本处的precision进行平均,即AP=(1/1+2/4+3/5+4/6)=0.6917

那么mAP是什么呢?

如果推荐系统对测试集中的每个用户都进行样本排序,那么每个用户都会计算出一个AP值,再对所有用户的AP值进行平均,就得到了mAP,也就是mAP是对精确度平均的平均。

需要注意的是,mAP的计算和P-R曲线、ROC曲线的计算方法完全不同,因为mAP需要对每个每个用户的样本进行分用户排序,而P-R曲线和ROC曲线均是对全量测试样本进行排序。

比如搜索“推荐系统”图书时,最理想的结果时R1、R2、R3,但出现的结果是R2、R3、R1,CG值是没有变化的。

DCG,Discounted的CG,就是在每一个CG的结果上除以一个折损值,目的是为了让排名越考前的结果越能影响最后的结果,假设排序越靠后,价值越低,那么到第i个位置时,价值为

,那么第i个结果产生的效益是

,所以DCG表达式为:

NDCG,归一化的DCG,由于搜索结果随着检索词的不同,返回的数量是不一样的,而DCG是一个累加的值,没法针对两个不同的检索结果进行归一化出力,这里是除以IDCG。

IDCG为理想情况下的最大的DCG的值,为:

覆盖率最简单的定义是,推荐系统能够推荐出来的物品占总物品的比例,将更多的物品推荐(曝光)出去,只有曝光出去才有被用户“消费”的可能;覆盖率越高表明模型能够针对更多的item产生推荐,从而促进长尾效应挖掘。

在度量推荐系统长尾能力时,我们可以从如下三个维度来度量:

不同的产品有不同的时效性,比如电商类需要的时效性不是很高,但是新闻资讯、短视频这类产品,就需要很高的时效性、所以针对不同产品甚至产品下不同的类别,设置不同的时效性,这也是提高推荐质量的途径之一。

所以时效性一般分为四个级别:日级、小时级、分钟级、秒级。我们可以根据不同的产品形态,不同的业务场景等因素来进行评估,选出产品所属的时效性。

传统离线评估方法和动态离线方法对比

毫无疑问,动态评估的过程更接近真实的线上环境,评测结果也更接近客观情况,如果模型更新的频率持续增加,快到接收到样本就更新,整个动态评估的过程也变成逐一样本回放的精准线上仿真过程,这就是经典的仿真式离线评估方法-Replay。

Replay方法不仅适用于几乎所有推荐模型的离线评估,而且是强化学习类模型唯一的离线评估方法。

Replay的实际实现中有一点需要特别注意的是:样本中不能包含任何「未来信息」,要避免数据穿越的现象发生

上文介绍的离线评估指标无法还原真实的线上环境,几乎所有的互联网公司,线上A/B测试都是验证新模块、新功能、新产品是否有效的主要方法。

又称「分流测试」或「分桶测试」,是一个随机实验,通常被分为实验组和对照组。利用控制变量法,保持单一变量进行A、B两组的数据对比,并得到结论。

线上A/B测试无法被替代的原因主要有以下三点:

离线评估无法完全消除数据有偏(databias)现象的影响,因此得到的离线评估结果无法完全替代线上评估结果离线评估无法完全还原线上的工程环境,比如请求延迟、数据丢失、标签数据缺失等,离线评估比较理想化,结果存在失真现象线上系统的某些商业指标再离线评估中无法计算

需要注意样本等独立性和无偏性,同一用户在测试的全程中只能被分到同一个桶中。

在实际的场景中,同一App或者网站需要进行多组不同类型的A/B测试,统同一业务的不同模块也会进行A/B测试(比如推荐系统中的召回层、排序层、展示层等),这种情况下不同层之间势必会产生干扰,同层之间也可能因为分流策略不当导致指标失真。

谷歌在其实验平台论文:OverlappingExperimenInfrastructure:More,Bette,FasterExperimentation详细介绍了实验流量分层和分流的机制。A/B测试分流和分层的机制可以概括为:

层与层之间的流量正交,即层与层之间的独立实验的流量是正交的,即实验中每组的流量穿越该层后,都会被再次随机打散,且均匀的分布再下层的每个实验中同层之间的流量互斥,即同层之间进行多组A/B测试,不同测试之间的流量是不重叠的一组A/B测试中实验组和对照组的流量是不重叠的,是互斥的

在进行A/B测试时,进行指标的对比和模型策略等的验证是比较有说服力的。

2013年微软提出了Interleaving线上评估方法,被当作时线上A/B测试的预选阶段进行候选算法的快速筛选,从大量初始想法中筛选出少量优秀的推荐算法,再对缩小的算法集合进行传统的A/B测试,以侧拉他们对用户行为的长期影响。

使用Interleaving进行快速线上测试。用灯泡代表候选算法。其中,最优的获胜算法用红色表示。Interleaving能够快速地将最初的候选算法集合进行缩减,相比传统的ABTest更快地确定最优算法。

消除了A/B测试者自身属性分布不均的问题通过给予每个人相同的权重,降低了活跃用户对结果的影响

这种不区分A/B组,而是把不同的被测对象同时提供给受试者,最后根据守试者的选择得出评估结果的方法称为——Interleaving方法。

Interleaving方法的优缺点

优点:

缺点:

所谓的用户指标就是从用户的角度去衡量所推荐产品的效果,是否满足用户的需求,能不能给用户带来惊喜,或者引发用户搜索更多产品等,可以从以下几个标准来衡量:

推荐命中率/准确度就是所推荐的产品用户喜不喜欢的最直观的指标,比如推荐的商品,用户有没有加入购物车或者下单,推荐的音乐用户有没有收藏或收听,推荐的课程用户有没有学习等,都可以用来衡量用推荐的命中率。

推荐用户没有接触过的产品,不一定是用户喜欢的,但是可以提升用户的探索欲望,从而获取更完整的用户兴趣。

用户的兴趣是多样的,在做推荐的时候需要给用户提供多样的物品,可以挖掘新用户的兴趣点,拓展用户的兴趣范围,提升用户的体验

THE END
1.方法确认和方法验证的具体要求以及实例分享注:测量结果的准确度由正确度和精密度两个指标进行表征。 i)灵敏度; j)结果的测量不确定度。 3.确认方法特性参数的选择 3.1 方法确认的典型特性参数 方法确认首先应明确检测对象特定的需求,包括样品的特性、数量等,并应满足客户的特殊需要,同时应根据方法的预期用途,选择需要确认的方法特性参数。典型的需要确认的方http://m.cnas-cma.com.cn/nd.jsp?id=98
2.方法验证准确度测定方法.pptx方法验证准确度测定方法.pptx,方法验证准确度测定方法汇报人:XXX2024-01-25 引言方法验证基本原理准确度测定方法方法验证实验设计准确度测定结果评价方法验证准确度测定注意事项 01引言 123通过准确度测定,可以验证所使用的方法是否准确可靠,从而确保后续实验或测试结果https://max.book118.com/html/2024/0501/5040114010011202.shtm
3.药物分析方法验证思路依然很乱!这篇文章拿走不谢线性系指在设计的测定范围内,检测结果与供试品中被测物的浓度(量)直接呈线性关系的程度,是定量测定的基础,涉及定量测定的项目,如杂质定量试验和含量测定均需要验证方法的线性。 1.3范围 范围系指能够达到一定的准确度、精密度和线性,测试方法适用的试样中被测物高低限浓度或量的区间。通常用与分析方法的测试结果相https://www.canbigou.com/index.php/d/623.html
4.方法验证指导原则《中国药典》版第四部.pdf验证的分析项目有:鉴别试验、限量或定量检查、原料药或制剂中有效成分含量测定,以及制剂中其他成分(如防腐剂等,中药中其他残留物、添加剂等)的测定。药品溶出度、释放度等检查中,其溶出量等的测定方法也应进行必要验证。 验证指标有:准确度、精密度(包括重复性、中间精密度和重现性)、专属性、检测限、定量限、线性https://www.360docs.net/doc/f3f2ba765527a5e9856a561252d380eb63942359.html
5.分析方法验证做法与可接受标准2准确度 准确度系指采用该方法测定的结果与真实值或参考值接近的程度,一般用回收率(%)表示。准确度应在规定的范围内测定。 3线性和范围 线性系指在设计的范围内,测定响应值与试样中被测物浓度呈比例关系的程度。线性是定量测定的基础,涉及定量测定的项目,如杂质定量测定和含量测定均需验证线性。 https://www.yoojia.com/ask/17-11744117172134058647.html
6.分析方法验证可接受标准剖析—准确度与精密度篇2020版《中国药典》9101分析方法验证指导原则中对准确度、精密度的相关要求仍未改变。方法验证中准确度和精密度存在怎样的关系,我们该如何理解其相关规定,本文表述下个人观点,不足和错误之处,大家批评指正。 一 名词解释 准确度:指采用该方法测定结果与真实值或参考值接近的程度,一般用回收率表示。 https://www.360doc.cn/article/5078017_901849688.html
7.基于ISO26262的失效模式和诊断策略分析准确度研究汽车技术在汽车电子硬件设计领域,FMEDA是验证硬件架构的有效手段,然而ISO26262和GB/T34590对该方法的阐述并不足以支持实际硬件设计工作中FMEDA分析的开展,行业内也并未公开FMEDA分析的具体实施细则和实施方法。 为此,本文分析FMEDA的流程及其关键因素,提出FMEDA三维准确度验证方法,并以惯性传感系统为例阐述其应用过程。 https://www.auto-testing.net/news/show-107408.html
8.分析方法验证ICH分析方法验证指南准确度推导有问有答各位老师,ICH分析方法验证中有一句话:accuracy may be inferred once precision, linearity and https://www.ouryao.com/forum.php?mod=viewthread&tid=421757
9.TOC5000仪器方法检出限精密度准确度实验验证为方便客户应用,我们对TOC-5000型总有机碳分析仪的方法检出限,样品测试精密度、准确度进行实验验证,以下是实验过程及实验数据的详细叙述和汇总。 摘要: 选用TOC-5000总有机碳分析仪,以燃烧氧化法测定水中总有机碳(TOC)。按照标准《HJ 501-2009水质总有机碳的测定燃烧氧化—非分散红外吸收法》要求配置有机碳标准https://www.86175.com/tech_news/detail/119870.html
10.药物分析方法的验证药品质量标准分析方法验证的目的是证明采用的方法适用于相应检测要求,包括原料药及制剂的性状、鉴别、检查、含量测定等有关项目。通常需要验证的检测项目:鉴别、杂质检查(限度试验、定量试验)、定量测定(含量测定、溶出度、释放度等)。方法验证的内容包括专属性、线性、范围、准确度、精密度、检测限、定量限、耐用性等https://hu.yixue99.com/2020/0831/32606.html
11.对皂苷类化合物进行定量检测的方法与流程采用加标回收法验证方法准确度。称取已知个皂苷含量的绵萆薢样品0.2g,加入11种皂苷的混合标准溶液。按照样品中每种皂苷本底含量的50%、100%、150%3个水平添加标准溶液。按照1.3样品处理方法制备后进行测定,计算加标回收率。在三个浓度水平加标下,各皂苷回收率在82.52~107.51%之间,rsd在1.86~7.12%之间,表明该方法https://www.xjishu.com/zhuanli/52/202011490174.html
12.实验方法的检测限定量限及其验证但信噪比受检测仪器状态的影响很大,且与耗材、试剂、样品前处理等多种因素相关,按信噪比3/10计算与验证过的检测限/定量限在下一次检测时并不是方法的检测限/定量限,因此导致方法验证出现异常,测量的定量限(检测限)并不是真正的方法定量限,特别是定量限可能不能满足精密度和准确度要求,即定量限测不准原理。https://www.chem17.com/tech_news/detail/2540088.html
13.药品质量标准分析方法验证精密度精密度指一组测量值的彼此符合程度医学|教育网搜集整理。 精密度表示用:标准偏差(标准差)和相对偏差。 精密度好是准确高好的前提,但精密度好其准确不一定高,精密度不好准确度一定不好。 1)重复性 相同条件下,同一分析人员测定所得结果的精密度称为重复性。 https://www.med66.com/new/53a270aa2011/2011214yuchan143228.shtml