ε-greedy是一种最简单的随机方法,原理很简单:选一个(0,1)之间较小的数ε(比如:0.05),每次决策时,以概率ε去Exploration,1-ε的概率来Exploitation。
3.2Upper-Confidence-Bound(UCB)算法
UCB算法是一种完全不考虑随机性的算法,它除了要考虑收益回报外,还要考虑这个收益回报的置信度有多高。考虑置信后定义的收益回报为:
其中为在s时刻观察到的收益;为当当前t时刻臂i被选中的次数。用一句话来描述这个新的收益就是,臂被选中的总次数中,有收益的占比。或者也可以说是收益的一个平均值。
然后,给每个臂赋予一个最终的取值:
其中t为摇臂次数;为i臂到t次时摇了多少次。公式的后一项衡量的就是置信度,也就是我们对于第一项的回报的估计的有多确信。
4.汽车之家推荐系统E&E算法的应用
4.1汤普森采样应用
4.1.1兴趣点退场
兴趣点退场的大体思想为:在召回过程中,遍历每一个兴趣点,获取该路召回兴趣点对应的浏览点击序列,以80%的概率退场3次未点击的召回兴趣点;以95%的概率退场5次未点击的兴趣点;以99%的概率退场8次未点击的兴趣点。如图1所示:
图1兴趣点隐式负反馈退场机制
该方法的优点主要有:1、设计方案简单,有利于快速实现;2、对用户点击作用不大的兴趣点能启到一定的减少召回的作用。不足之处有:1、退场机制不够精致;2、实际应用中兴趣点的点击和浏览难以追踪和记录。
4.1.2兴趣点选择
针对兴趣点退场过程中的主要缺点,开发了基于汤普森采样的兴趣点选择。实现的原理及过程主要为:以曝光item的标签(包括车系,nlp,品牌…)作为兴趣点,离线实时记录某用户对该标签的浏览、点击次数。以点击次数作为汤普森采样的第一个参数win,以浏览次数作为汤普森采样的第二个参数Loss,在召回过程中对每个兴趣点进行汤普森采样得到概率值P,根据P的大小排序,截取前n个兴趣点进行召回。该方法的优点主要有:1、退场过程更加精细,应用汤普森采样能够得到相对准确且带有探索机制的退场概率;2、捕捉的主要是用户当天的点击浏览次数,对于浏览点击行为越丰富的活跃用户,退场效果越好。不足之处:不论是兴趣点退场还是兴趣点选择都是退场的兴趣点即召回的索引,由于召回路数很多,在某一退场机制作用下无法召回的item在其他路召回中还有被召回的可能,这种情况下兴趣点退场会大打折扣。
4.2UCB自适应应用
4.2.1召回数量自适应
其中a为redis中设置的每路召回的召回个数,a,g为常数,N为实验配置修改的总次数,Na为召回个数配置为a的实验次数。算法方案流程如图2所示:
图2召回个数自适应方案流程图
5.总结和未来计划
通过汤普森采样和UCB自适应的方式在推荐召回系统中进行兴趣点退场和召回数量自适应选择方面的应用使我们对E&E在推荐场景中的落地有了初步的认识。兴趣点退场避免了一些无效兴趣点的召回,召回数量的只适应选择充分考虑了用户兴趣,尽可能多的召回用户真正感兴趣的内容。E&E算法本身是一种基础强化学习的体现,在后续工作中,我们将会探索强化学习的推荐召回和排序中的应用,引入DQ-learning学习框架,通过神经网络的方式对某一时刻的状态(s),采取某种行动(a)来拟合最优的Q值,从而获得最大的收益。