从零开始了解推荐系统全貌算法隐式大模型神经网络

有幸参与了几个业务推荐系统搭建的全流程,本文将从实际经验出发,为大家解构如何从零搭建推荐系统,希望跟大家能够相互交流,如有错误之处烦请指正。一、推荐算法的理解

如果把推荐系统简单拆开来看,推荐系统主要是由数据、算法、架构三个方面组成。

推荐的框架主要有以下几个模块:

三、用户画像3.1用户标签

标签是我们对多维事物的降维理解,抽象出事物更具有代表性的特点。我们永远无法完全的了解一个人,所以我们只能够通过一个一个标签的来刻画他,所有的标签最终会构建为一个立体的画像,一个详尽的用户画像可以帮助我们更加好的理解用户。

原始数据一共包含四个方面:

2.事实标签

事实标签可以分为静态画像和动态画像:

隐式行为的权重往往不会有显示行为大,但是在实际业务中,用户的显示行为都是比较稀疏的,所以需要依赖大量的隐式行为。

3.模型标签

模型标签是由事实标签通过加权计算或是聚类分析所得。通过一层加工处理后,标签所包含的信息量得到提升,在推荐过程中效果更好。

四、内容画像4.1内容画像

推荐内容与场景通常可以分为以下几类,根据所推荐的内容不同,其内容画像的处理方式也不同。

五、算法构建5.1推荐算法流程

推荐算法其实本质上是一种信息处理逻辑,当获取了用户与内容的信息之后,按照一定的逻辑处理信息后,产生推荐结果。热度排行榜就是最简单的一种推荐方法,它依赖的逻辑就是当一个内容被大多数用户喜欢,那大概率其他用户也会喜欢。但是基于粗放的推荐往往会不够精确,想要挖掘用户个性化的,小众化的兴趣,需要制定复杂的规则运算逻辑,并由机器完成。

推荐算法主要分为以下几步:

2.周期性复购问题

5.3粗排策略5.4精排策略

以短视频行业为例,推荐目标主要由几个方面组成:

参考:《多目标排序在快手短视频推荐中的实践》

1.概念:逻辑回归通过sigmoid函数,将线性回归变为可以解决二分类的方法,它可用于估计某种事物发生的可能性。

2.计算公式:Y根据目标设计:例如是否点击(是:1,否:0,最后预测一个0-1之间的点击概率);X根据特征工程设计:这一块就涉及到了前面提到的用户画像与内容画像,所有的画像都是对样本的特征的刻画。特征工程需要根据业务场景选择合适的特征并进行一定的加工;W由模型训练得到。

基于我们的目标,需要进行样本的收集(样本是对客观世界的具体描述),通过对已收集到的样本进行特征构造,并对其进行训练,最终求出模型参数的具体数值。

逻辑回归为有监督模型,因此需要有已经分类好的样本。正样本:用户曝光过某物品并点击。负样本:用户曝光过某物品并且没有点击。如果正负样本差距过大,可以将负样本随机抽样后与正样本一起训练。或只保留有点击行为的用户作为样本,将曝光但是没有被点击的物品作为负样本。

特征工程是对收集到的样本进行更加深度的特征刻画。虽然作为算法人员与用户接触较少,但对身边使用该产品的同学,进行深入的观察与访谈,了解他们对于所推荐内容的反馈,往往可以得到意料之外的特征开发方向。主要分为以下几个维度。

不同交叉方法得到的不同的参数数量:

1.深度学习基础Embedding+MLP模型

2.深度学习主要特点

(1)embedding技术在召回层的应用:embedding,即用一个数值向量来表示一个对象的方法,对于处理稀疏特征有比较重要的应用,其将稀疏高维特征向量转换为稠密低维特征向量,可以融合大量价值信息。其主要方法有基于文本的Word2Vec,基于物品的Item2Vec,基于图结构(社交关系、知识图谱、行为关系等)的deepwalk、Node2Vec(增加了随机过程中跳转概率的倾向性)等。

(2)深度学习模型在排序层的应用:深度学习模型以MLP为基础结构,embedding+MLP是最经典结合,google在此基础上提出的Wide&Deep在业界得到了广泛的应用。

3.目前主要的衍化方向

4.深度学习模型举例

(1)Wide&Deep模型

2016年谷歌发表的Wide&Deep模型与YouTube深度学习推荐模型,引领推荐算法走向了对深度学习的应用。

相比传统机器学习推荐模型,深度学习具有更加复杂的模型结构,而使其具备了理论上拟合任何函数的能力。同时深度学习的结构灵活性可以让其模拟出用户兴趣的变迁过程。左侧传统推荐模型与右侧深度学习推荐模型对比,其模型复杂度增加:

(2)DeepFM模型

由FM与深度学习模型的结合生成的DeepFM模型:即FM替换了Wide&Deep的Wide部分,加强了浅层网络部分特征组合的能力,右边的部分跟Deep部分一样,利用多层神经网络进行特征的深层处理。

(3)深度兴趣DIN模型

(4)深度兴趣进化网络DIEN

弥补DIN没有对行为序列进行建模的缺点,通过序列层,兴趣抽取层,兴趣进化层。其中利用序列模型利用商品ID和前一层序列模型的embedding向量,输出商品embedding与兴趣embedding。

listwise排序

强化学习

其主要几个方向为:加强特征与信息的补充、EE问题平衡、实时化加强。

信息补充

EE探索

快速收敛

5.6.2内容冷启

以短视频推荐为例,平台常常采用大小池逻辑,对内容进行不同流量的探索,并根据实际的反馈数据来决定内容可以进入的推荐范围。其中表现优质的内容将不断的进入更大的流量池中,最终进入推荐池,形成精品召回池。

六、当前发展

因果与推荐结合

序列/会话推荐

*图神经网络与推荐结合*

知识图谱与推荐结合

多模态内容推荐

对话系统:主要分为两种方向(1)通过NLP的方式来构建对话机器人。(2)交互式的意图挖掘,利用用户少量交互行为,快速得到用户偏好以完成推荐任务。

如何去获得推荐效果。可以分为离线实验、用户调查、在线实验三种方法。

推荐系统并非导致信息不平等和信息茧房的根本原因。

但不可否认的是,推荐系统的便捷性、自动化、实时性会加重这些问题。在这样的情况下,我们能做些什么?

8.2算法可能产生的蝴蝶效应

在很多场景中,并非只有机器算法一种推荐方式。以视频号为例,除公域机器推荐外,也存在私域(朋友圈、群聊、单聊)、半公域(朋友tab社交推荐)等推荐方式,但推荐对整个产品体验、内容生态、作者生态的影响都是巨大的。

8.2.1推荐算法对feed传播的影响

(图中曲线均为模拟,非真实曲线,仅供示例)

一个feed在传播过程中,主要影响因素有:

推荐算法对feed的影响是巨大的,若无法被推荐算法识别,其获得较高热度的可能性较低,最终导致产品的流量主要集中在被推荐算法识别并推荐的feed上。其短期内对内容生态、浏览者体验有较为重要的决定作用;长期来看,对内容氛围、作者反馈、浏览者长期留存都有较大的影响。

THE END
1.工业级推荐系统注意特征覆盖率 排序模型预估点击率、点赞率、收藏率、转发率的分数,最后进行分数融合,做排序和截断 适用于粗排的模型(几千量级) 三塔模型(粗排模型-小红书做了细节改进) 用户塔:每次只有一个用户,只做一次推理 物品塔:物品信息稳定,缓存物品塔,减少推理次数,未命中缓存时才需要做推理 https://blog.csdn.net/ryan_here/article/details/136813325
2.贝叶斯最优权重mob6454cc777577的技术博客贝叶斯优化和梯度下降都是优化算法,但它们有不同的优点和缺点。 贝叶斯优化 贝叶斯优化是一种基于贝叶斯统计的优化算法。它使用贝叶斯方法来计算目标函数的概率分布,并使用该分布来指导优化过程。贝叶斯优化的一个优点是它可以处理非凸问题。 梯度下降 梯度下降是一种基于梯度的优化算法。它使用目标函数的梯度来计算下一https://blog.51cto.com/u_16099320/12673086
3.分析某个算法的优劣势理想股票技术论坛分析某个算法的优劣势,分析算法优劣势, 算法评估, 算法优缺点, 算法性能分析, 算法比较对特定算法进行深入分析,包括其优势与劣势的评估。探讨算法的性能、效率、准确性、可扩展性等方面,并与其他相关算法进行比较,以全面展现该算法的优劣势。 分析算法在不同应用场景下的性能优化策略及实现机制 [股票软件指标公式https://www.55188.com/tag-09853916.html
4.科学网—[转载]转载认清虚拟筛选中的陷阱陷阱c:基准数据集的命中率 使虚拟筛选算法的基准测试复杂化的两个因素是化学库的大小与多样性。在早期,基准库要么是太小了,要么是包含了太多密切相关的类似物,而通常情况下是二者都有47。小库不能代表绝大多数的真实应用场景,因为其命中率通常在0.01%到0.14%之间93。与之类似的是,过于同质的库人为地夸大了方法的https://wap.sciencenet.cn/blog-3386602-1162809.html
5.北京航空航天大学计算机专业指导专业课资料简答:考点:Cache容量计算,直接映射方式的地址计算,以及命中率计算(行优先遍历与列优先遍历命中率分别很大) 假定int 类型数据用32位补码表示,程序编译时i,j, sum 均分配在寄存器中,数据a按行优先方式存放,其地址为320(十进制数),请回答下列问题,要求说明理由或给出计算过程。 (1)、若不考虑用于cache一致性维护和http://yanchenqh.com/contents/208/1306.html
6.各类计算公式碧蓝航线WIKIBWIKI更新了暴击率,闪避率与命中率,幸运值的相关作用 20180117 冬活出现了较多闪避不符的情况,新的闪避机制经过大量实测与考据,被证明出来。 20180321 等级上限突破为110级,故而加入了成长值计算公式,由井号5467大量数据考据得到。 20180621 更新后计算数值都先属性值去尾再计算,也就是说现在开始面板属性值多少计算数值就是https://wiki.biligame.com/blhx/?curid=67
7.大话性能测试:JMeter实战1.磁盘利用率过高 2.磁盘等待队列太长 3.等待磁盘IO的时间所占的百分比太高 4.物理IO速率太高 5.缓存命中率过低 6.运行进程队列太长,但CPU却空闲 iostat MySQL数据库 1.缓存命中率小于0.90 2.前10位SQL语句耗时高 OrzDBA 3.性能常见问题和案例 当性能测试实战经验丰富后,会发现常见的性能问题可以分为3https://www.epubit.com/bookDetails?id=UB78128d0789cad
8.深度矩阵分解推荐算法?E-mail: jos@iscas.ac.cn http://www.jos.org.cn Tel: +86-10-62562563 深度矩阵分解推荐算法? 田震 1, 潘腊梅 1, 尹朴 1, 王睿 1,2 1(北京科技大学 计算机与通信工程学院,北京 100083) 2(北京科技大学 顺德研究生院,广东 佛山 528300) 通讯作者: 王睿, E-mail: wangrui@ustb.edu.cn 摘要: https://www.jos.org.cn/jos/article/pdf/6141
9.马伊琍推荐:只需点击,好礼收入囊中!永恒纪元戒法师天赋最强加点方案:2017法师加点推荐,新版本中由于装备的更新,让法师有了崛起的希望。评分:9.6 同时,扎克-拉文期间的三项命中率为55/51/100%。 来源: X 近四场比赛,公牛球员扎克-拉文分别得到了29分,26分,27分和25分。 永恒纪元戒官方版2024-11-27 00:59 http://mbd.lanzouxv.com/478262.html
10.水土不服?迪文岑佐近3战命中率仅17.6%赛季至今命中率33.9%最近3场比赛,森林狼后卫迪文岑佐合计17投3中,投篮命中率是17.6%。 在被交易到森林狼之后,迪文岑佐出战了13场比赛,场均上场25.7分钟可以得到8.9分3.4篮板3.3助攻1.4抢断,投篮命中率是33.9%,三分命中率为30.3%,罚球命中率是78.6%。 上赛季在尼克斯,迪文岑佐出战了81场常规赛,场均登场29.1分钟可以拿下15.5分3.7篮http://m.minechemart.com/SWZ/detail/KehYAluGcPCC.html
11.Linux负载CPU内存磁盘IO网络IO状态分析详解缓存命中率是指直接通过缓存获取数据的请求次数,占所有请求次数的百分比。命中率越高说明缓存带来的收益越高,应用程序的性能也就越好。安装bcc包后可以通过cachestat和cachetop来监测缓存的读写命中情况。安装pcstat后可以查看文件在内存中的缓存大小以及缓存比例。http://www.wityx.com/post/144376_1_1.html
12.三分命中率41.7%!队记:浓眉现在外号叫Ooter意思为射手本赛季至今,浓眉出战11场,场均可以得到31.1分10.9篮板2.7助攻1.2抢断2.1盖帽,投篮命中率55.7%,三分命中率41.7%。 三分命中率41.7%!队记:浓眉现在外号叫Ooter 意思为射手-直播吧 专栏 14.29MB 87%好评(10人) 39 三分命中率41.7%!队记:浓眉现在外号叫Ooter 意思为射手-直播吧http://unuq.one8one.cn/
13.克内克特近三战躇20分&进4个三分命中率64/63/100%本场比赛,新秀克内克特出战37分钟,17投10中,三分10中5砍下27分7篮板2助攻2抢断,没有失误,正负值+11全场最高。 据统计,过去三场比赛中,克内克特场均能够拿下20分,投进4个三分球,三项命中率为64/63/100%。 相关信息 大小 29.9M 分类 角色扮演 更新 2024-11-28 15:04:04 运行平台: 标签 今日电竞赛事http://m.vetyt.cn/EMD/detail/HyaNcKExNNlQ.html
14.昨日排云掌超超超三分后约基奇三分命中率已经跌下联盟第1!而加上这个打铁,本场约基奇三分7中3之后,他的三分命中率已经跌下联盟第一。 在本场之前约基奇的三分命中率58.5%是联盟第一,本场之后跌到56.3%,被黄蜂球员约什-格林(56.4%)反超。 链接>>>0.3秒!约基奇后场排云掌!超远压哨三分出手! Respect!湖记谈约基奇0.3秒排云掌:这是篮球史上最佳打铁 http://m.51youzhike.com/ZRE/detail/kVsqkoa.html
15.四部门:开展“清朗·网络平台算法典型问题治理”专项行动《关于加强互联网信息服务算法综合治理的指导意见》(以下简称《指导意见》)《互联网信息服务算法推荐管理规定》等政策文件印发以来,各部门各地区加强组织推进,网站平台积极落实有关管理要求,算法应用生态日益规范,但仍存在一些需要持续加强治理的典型问题。为进一步深化互联网信息服务算法综合治理,现决定自即日起至2025年2月http://m.chenyabingli.cn/CID/detail/PUKWbY.html
16.今日热榜官网93 建行生活app 搜:出行活动,有0.01买:12张0.99元公交地铁券 页面可查看可用地区 94 鹅绒被 有没85 【快手】【日常实习】大模型会话式推荐算法工程师 实习(Intern) 86 大一的男生地位真的很低吗 12 [流言板]福克斯近6战场均37.7分7.5助,命中率56.7%,但国王1胜5负 46亮 13 [流言板]基德:欧文http://www.ipadown.com/
17.预警管理体系范文11篇(全文)04年一些发达省份的电信公司已经开始利用数据挖掘技术建立电信客户的流失判断模型、05年在此基础上开始做电信客户的流失预警模型, 依据模型结果进行流失挽回派单, 效果不错, 命中率较以前简单统计算法的派单提高3倍多。 数据挖掘技术对于目前电信企业无论是流失预警还是其他营销工作的支撑都将越来越重要!https://www.99xueshu.com/w/ikeywjwwoipu.html
18.交警支队市南大队事故科智能化改造项目第1包以脸搜脸首位命中率不低于 95%, 以脸搜脸前 10 位命中率不低于 99% 10.支持通过视图库接入前端或其他设备, 支持人脸,人体,机动车和非机动车以及 频率响应(@1W 功率下):20Hz-20KHz/± 1dB @8Ω; 5.THD+N(@1/8 功率下) :≤0.01%; 台 6.分离度(@1KHz) :≥80dB; 7.阻尼系数(@1KHz) :https://ggzy.qingdao.gov.cn/PortalQDManage/PortalQD/GetZbDownLoad?id=83911&filePOrB=2