争议:婚恋网站的推荐系统,怎么做才能让用户不用再回家相亲?腾讯云开发者社区

首先,我们先顺着作者的思路去看佳缘经历的推荐算法:

在2011年到2013年的算法年,佳缘尝试了两个算法方向,与我的想法非常背离,第一个不是最基本的Content-based,而是Item-based,相信Item-based算法大家都再了解不过,所以就不多做解释。我们只来分析算法的业务应用。Item-based是在构建一个User-Item矩阵,然后计算Item-Item之间的相似度。那么具体到婚恋网站的业务场景,其实也就是构建了一个Man-Woman的矩阵,将Woman当做Item,计算Woman之间的相似度,这个算法场景基于背后的假设是认为,如果一个男人喜欢一个女人,那么他必然喜欢和这个女人相似的女人,换句更直白的话说,每个男人都喜欢自己女朋友的闺蜜。相似,我们将User-Item矩阵做转置后,可以继续做Man的相似度,不再复述。

那么这个算法解决的出发点很好,但是实话实说,其实paper一共就那么多,我总结着看了下,并没有真正有用的东西,也没有创造性的模型产生,只是对于传统推荐算法的一个后过滤,整体思路就是把曾经的无向图变成了有向图,分别求出Man-->Women,Woman->Man的双向关系,然后或者相乘,或者搞一些奇怪的公式去做拟合。作者说不太靠谱,但是我认为这个算法从思路上来说是对路的,无论是不是用他们那些莫名其妙的模型,但是作为思想的参考还是值得借鉴的。

接下来佳缘推荐算法的阶段步入了2014的工程年,作者根据佳缘的团队及业务特点将佳缘推荐做了战略上的调整,从比拼算法模型改成了比拼特征工程。我不了解佳缘的实际情况,不敢多做评价,只是从个人感觉来说也许作者从一个极端走到了另一个极端。从外界来猜测一下佳缘的实现思路:抽出各种各样的特征,例如用户的基本人口学信息,加上用户的行为属性信息等等,然后针对每个用户训练一个分类器,来预测他是不是对对方感兴趣。

那我们来聊聊逻辑回归的根本问题吧:

我相信接下来我说的很多尝试和做法,佳缘都已经尝试过了,但是站在局外者的角度,我认为除了传统的特征工程以及算法模型的优化外,其实接下来的这些才是婚恋网站推荐算法成功的关键(结合佳缘的模式:收取用户的看信费用,其实我没用过):

说归说,我很佩服作者几年来一直坚持着做着同一个产品的推荐算法,也希望大家可以多多讨论。

在<商品推荐算法&推荐解释>一文中,@飞林沙表示,我们做推荐算法的时候要考虑:

但是从工程角度上,并不适合上来就搭建这么复杂的模型,所以我们可以适当做简化,例如:

@飞林沙认为,数据挖掘或推荐系统只要达到目的就足够了,用什么模型其实真的没有那么重要,优化了好久的模型还真的不如加两条规则,或者人工清洗一下数据好用。模型真正的价值是泛化,但是对于工业界来说,泛化能力不需要太强,只要限定在当前的产品线就够了,如果产品形态改变可以再来一个算法。

@breezedeus在原文中提出了自己的感想:

技术为产品服务,而不是直接面向用户数据质量是地基,保证好的质量很不容易如何制定正确的优化指标真的很难业务理解>工程实现数据>系统>算法快速试错

很多刚工作的同学,最喜欢干的事就是套算法,认为懂了算法就什么都会了。真实产品基本都是数据>特征>算法。算法真不是那么重要!

2011年8月我加入世纪佳缘,开始时主要负责佳缘的交友推荐系统优化,后来我这个团队也负责其他的机器学习事情,比如佳缘的网警系统(抓恶意用户)。刚来时团队加上我只有3个人,做的事基本集中在推荐系统,以及对业务部门新产品的接口支持。当时我自己并没有推荐系统应用于工业界的实际经验,所以很想当然地就从自己了解的推荐算法开始工作了。

Item-basedkNN算法的尝试最开始是基于最大化佳缘用户发信量的业务理解,但后来我们发现这个理解跟业务部门的需求偏差很大。比如给男性展示美女,男性的发信就会暴涨,但这样就会导致少量的女性收到大部分信,而大部分女性则没信可收。这是业务部门不愿意看到的。虽然我们尝试在item-basedkNN基础上做调整来平衡其他的业务指标(如收信人数,看信人数等),但效果不理想。

第二个尝试是学术界的可逆(Reciprocal)推荐算法1,即在考虑用户体验的同时也兼顾item(对佳缘来说也是人)的体验。这个尝试基本是失败的,学术界发明的那些算法基本都有各种前提假设,真用起来都不太靠谱。

虽然到2013年我们团队人数上升到了六七人,但基本在推荐算法上做事的人还是只有两个左右。

从2013年底开始我逐渐意识自己对算法的理解过于学术而无法满足业务部门的实际需求。所以从2013年底我开始从业务出发重新梳理推荐算法团队的工作方向。相对于给用户推荐物品的场景,佳缘的在线交友推荐有以下几个特点:

转化链很长,反馈延迟

佳缘业务的高复杂性,加上团队在使用算法上经验不够,让我决定把接下来的算法优化方向放在特征工程上,而算法就限制在最简单的逻辑回归(LogisticRegression)。团队在处理特征的过程中可以积累对数据的处理经验,以及对业务的理解。逻辑回归足够简单,解释性好,也有很好的开源实现。从它开始也可以让团队在算法使用上积累心得。这是“战术”上的第一个选择。我们把上图中每一步转化作为单独的问题分别进行优化,这样逻辑回归就适用于每一步。这是“战术”上的第二个选择。

上面说的“战术”,其实针对的只是推荐系统里的排序系统。当时我对推荐系统整体的想法是把运营需求和用户需求分开,然后分别对他们进行独立优化。具体说就是第一步以满足运营需求为目标获得候选集,而第二步是根据用户(双方)的喜好对候选集进行排序,系统流程图见下图。这样,在优化用户需求时就不需要考虑佳缘复杂的业务逻辑,可以极大地简化问题。同样,我们也可以比较独立地优化满足运营需求的候选系统。这可以认为是推荐系统的“战略”方向。

佳缘推荐系统流程图(2014)

2014年无疑是工程年。

2014年工程年的效果还是不错的,多个转化模型的分别构建和组合使用,使得业务上的各个指标都有所提升,很多指标的提升幅度都超过了50%。

例如,按照上面的流程图,第一步的候选系统通过考虑运营需求来产生候选集,然后候选集由考虑用户需求的排序系统进行排序。如果产生的候选集很小,那排序系统的优化空间就很小,作用自然也不会大;而如果候选集很大,那通过排序系统排序后获得最终推荐结果的做法就会降低运营需求的控制力度。

推荐系统通用流程图

再仔细说明下上面这个流程中的前两步:

相对于2014年运营需求与用户需求独立优化的“战略”,2015年的优化思路有所调整:

那么,为什么把2015年叫做推荐系统的产品年?因为今年推荐系统的目标是优化产品目标!

推荐系统是为产品服务的,而不是直接为用户服务。

上面这句话听起来很简单,但其实很多时候我们会在不知不觉中认为推荐系统是直接在为用户服务的。我们在最早的时候就是犯了这个错误。

本节的最后,汇总罗列下我这几年做推荐的感想:

这节我只是简单罗列下最近几年自己接触的比较有代表性的一些技术,跟工作关系不大。

了解DP主要是因为当时在看Mahout源代码的时候发现有个算法以前竟然没接触过,觉得挺有意思就仔细学了下。DP不太好理解,它被称为分布的分布。从DP抽取出的每个样本(一个函数)都可以被认为是一个离散随机变量的分布函数,这个随机变量以非零概率值在可数无穷个离散点上取值。DPM是非参数贝叶斯聚类模型,聚类时可以让模型自动学习类数。虽然听着好像很不错,其实有很多槽点,具体可见参考文献2(参阅参考文献请点击原文链接)。

LDA是文本处理里的利器,经常被用于对文本进行聚类,或者预处理。更详细的理论介绍可见参考文献3。当时我尝试把它用于佳缘的发信数据,看看能不能找出一些有明显特征的发信群体。聚类结果整体上基本不可解释,但有一个类别意义很明显,这类人主要给离婚异性发信。大家可以想想这类人是什么人。尝试感想是LDA直接用于聚类未必靠谱,但是可以把它用于数据的预处理,比如降维什么的。

ADMM是个优化算法框架,它把一个大问题分成可分布式同时求解的多个小问题。理论上,ADMM的框架可以解决大部分实际中的大尺度问题。槽点很多,谨慎使用!更详细的介绍可见参考文献4。

算法预测的效果还是不错的,准确度达到了87%。这还是在很小训练集上训练后获得的精度。DL麻烦是训练时需要调整的超参数实在是太多了,改一次超参数就要重跑一次,真的是很耗时。没有好的计算资源的话,建议别考虑DL。

实在想不出更多的有用特征?尝试下Facebook提出的利用GBDT来构造新特征的方法吧。我们的使用经验表明确实还是挺靠谱的,只要你效率能扛得住。具体介绍可见参考文献5。

很多个性化特征?特征数量太多?试试特征哈希的方法吧。此方法我们目前也没使用过,欢迎有经验的人发表意见。具体介绍可见参考文献5。

正负样本数量差异太大?训练样本太多机器跑不动?尝试下参考文献7中的抽样方法吧。我们之前的尝试表明还是有点作用的。不过如果你的数据不是大得跑不动,那尝试的必要性就不太大了。

THE END
1.婚恋交友系统搭建与部署的最新趋势和技术创新是什么?预算和时间规划建议软件开发与定制:根据功能需求,评估软件开发成本,包括系统架构设计、前端开发、后端开发、数据库设计等。对于定制功能,需与开发团队详细沟通,确保预算充足。 维护与升级:考虑系统的长期维护和升级成本,包括定期更新、漏洞修复、性能优化等。这部分预算应纳入整体预算计划中。 https://blog.csdn.net/dkkyjiajia/article/details/144110776
2.交友网站制作北京婚恋网站设计免费婚庆网站制作大全雕龙网(www.diaolong.com)交友网站制作栏目为您提供北京婚恋网站设计,免费婚庆网站制作大全.找更多北京婚恋网站设计,免费婚庆网站制作大全就到雕龙网.http://www.diaolong.com/jianzhan/hunlian/
3.40个常见的Java课程设计/毕业设计项目(源码+文档)51CTO博客整理收集了常见的java系统设计源码,可以用于课程作业或者毕业设计。 1.基于java的家政预约网站系统 平台采用B/S结构,后端采用主流的Springboot框架进行开发,前端采用主流的Vue.js进行开发。 整个平台包括前台和后台两个部分。 前台功能包括:首页、家政详情、家政入驻、用户中心模块。 https://blog.51cto.com/u_8070900/12673781
4.约会聊天类网站建设约会平台网页设计婚恋交友网站搭建随着互联网的快速发展,交友聊天类程序逐渐走进人们的生活,成为人们重要的社交方式之一。这些程序通过创造一个虚拟的社交环境,使人们能够轻松地与其他人交流和结识新朋友。同时,随着社交网络的兴起,各种社交系统网站也开始快速发展。本文将探讨交友聊天类程序与网络发展的关系,并介绍社交系统网站建设及详细的栏目分类。 https://www.wxavatar.com/yhltlw.html
5.搭建婚恋服务平台事宜怎么写搭建婚恋服务平台事宜利用大数据分析用户行为和偏好,持续优化平台的匹配系统和功能设计,也是平台运营不可或缺的一部分。定期通过调查问卷或用户反馈,了解用户的需求和意见,不断调整平台的运营策略,让用户感受到平台的用心与专业。 #四、确保平台的合法合规婚恋服务平台不仅需要提供良好的用户体验,还必须遵守法律法规,保障用户的合法权益。在“http://www.wedating.cn/hunl/47405.html
6.发展规划(20232035年)的通知其他文件生活习俗、风味美食、特色商品等,整合县城的特色民居与街巷,集聚传统老字号、特色餐厅、精品茶馆、主题民宿、文创工坊等,营造独具海丰韵味的街头巷尾与市井百态;按照国家5A级旅游景区标准对县城的建筑风貌和景观进行文创设计和改造升级,配套标准旅游接待服务设施,完善游客服务中心、生态停车场、星级厕所、标识系统、游步道等https://www.shanwei.gov.cn/shanwei/zwgk/jcxx/zfwj/qt/content/post_911049.html
7.网站建设网站开发软件开发开发软件情感系统开发广州鑫亮信息科技有限公司旗下〖鑫亮软件〗专业网站建设_网站开发_软件开发_开发软件_婚恋网站建设_电商网站建设,电商网站平台开发,商城建设_商城开发_婚恋情感系统开发_婚介平台建设等。公司秉承以满足客户需求为理念,以平台网站建设为核心,融入SEO排名设计,结合电商https://www.pclrj.com/
8.交友约会网页设计,婚恋交友网站源码大家知道约会交友网站如何制作吗?今日17素材网小编分享一款交友约会网页设计,婚恋交友网站源码,该模板内含3种不同的主页样式,十几个HTML分层文件,可以满足大家自定义编辑的需求。https://www.17sucai.com/pins/48894.html
9.基于安卓android,请人帮忙做基于javaweb,毕业设计,管理系统专业计算机毕业设计代做团队,全程辅导,包过答辩。 我们的团队 首席代做老师 多年代做经验,擅长基于java,基于j2ee,基于springboot,基于javaweb,基于Android,基于VUE,基于微信小程序,基于鸿蒙,毕业设计。 PreviousNext Welcome 为什么选我们 诚信立业、质量为本。我们启思java毕业设计代做网,为每一位同学提供最专业的毕设http://www.j2eelw.com/
10.婚恋观教育范文12篇(全文)进行婚恋观教育, 既是大学生情感生活的需要, 也是正视大学生婚恋经历与婚恋指导的需要, 更是关注大学生全面成长与发展的需要。因此, 加强人性化的大学生婚恋观教育具有现实意义。在思想政治理论课中, 应加强人生观、价值观的教育, 把婚恋观作为人生观的基本部分加以探讨, 增强学生在婚恋观中的道德意识和责任意识, https://www.99xueshu.com/w/ikey9zv8i7y7.html
11.诚信交友的故事(精选8篇)根据用户需求,本文所介绍的系统将网站设计分为用户模块和后台管理员两大模块,其中用户模块包括:会员登录,会员注册,个人门户,个人日志管理,个人相册管理,个人档案管理,交友管理(查看交友记录,查找、添加好友)。后台管理功能包括:管理员登陆,用户审核管 理,用户个人门户小功能部件管理。https://www.360wenmi.com/f/file81ze4woj.html
12.TerryLee甚至于相貌、家庭、婚恋、事业,大卫·卡特勒是其中的灵魂人物,他是一位计算机的天才,汇编高手,但他的性格很暴躁,脾气倔犟,这也许就是我们传说中的鬼才吧 摘要: 最近有朋友接到一个项目,是为杂志社开发一套内部办公系统,09年3月底交活,准备用ASP.NET MVC + WF开发,想从咱们园子里找2-3名高手加盟开发,待遇http://terrylee.cnblogs.com/
13.专业北京网站建设,北京网页制作,北京网站设计,北京网站开发网站建设,网站设计,网站制作,北京网站建设,网站建设公司,手机网站,商城开发,物联网,h5开发,小程序定制开发,分销小程序,商城小程序,android,ios,元宇宙,公众号,软件定制,定制开发,oa,erp系统,商城app,多用户商城,社交app,视频app,短视频app,分销系统,点餐小程序,盲盒,团购http://www.wanbonet.com/
14.网站设计网站页面设计高端网站设计云南才力专业网站设计公司,全面解答网站设计,设计网站,网站设计模板,网站页面设计,高端网站设计,企业网站设计,网站设计制作是什么意思.https://www.yncaili.com/wzsjbk/?keywords=%E4%BC%81%E4%B8%9A
15.北京网站建设APP开发小程序制作北京网站设计制作尚网汇智北京网站建设公司,专注于北京网站建设、APP开发、公众号开发制作、小程序制作、北京网站设计开发、电商系统、商城网站建设、微网站开发、手机网站开发的北京网站建设公司,十年网站建设经验,真诚为客户提供更好的网站建设服务。https://www.net2006.com/
16.优逸克网站制作所需提供: LOGO、公司介绍、联系方式。产品资料、客户案例、新闻资讯等(图文资料) 咨询详情 MORE SERVICES ERP系统软件 THE LATEST PRODUCT BOUTIQUE CASE 福州德晟项目管理有限公司官网 亚联美国际婚恋官方网站 福州市建设工程管理有限公司官方网站 http://www.yoo7.cn/bk_22926233.html
17.淮南市网站建设淮南市网站制作淮南市网站设计启凡网络主要从事淮南市网站建设,淮南市网站制作,淮南市网站设计等。淮南市网络公司启凡网络专注于营销型网站建设服务,启凡网络始终认为能盈利的网站才是好网站,百家中小企业合作公司。http://www.zzqifan.com/city/2752.html
18.辽宁网站技术开发,鞍山网站技术开发,鞍山网站制作,鞍山网站设计新网科技专业网站开发公司专注于鞍山网站开发、鞍山软件开发、鞍山APP开发、鞍山网站制作、鞍山网站设计等建站服务,为鞍山公司企业提供网站建设、B/S软件开发、手机网站开发、H5响应式网站设计开发、商城系统开发、PHP/JSP网站开发、系统定制、二次开发等网站开发服务。http://www.lnxinwang.com/
19.徐州网络公司做网站建网站企业网站建设网站制作总监设计师一对一设计到满意为止,营销网站挖掘行业亮点推广宣传 了解详情 该套餐主要是针对需要特殊功能需求的网站用户例如,平台网站,门户网站,招聘求职类型网站交友网站,婚恋网站,旅游门户网站,众筹网站p2p网站,金融贷款类网站的建设。该套餐根据您的要求为您制作功能。 http://www.xzkaishang.shop/index/service/web.html