争议:婚恋网站的推荐系统,怎么做才能让用户不用再回家相亲?腾讯云开发者社区

首先,我们先顺着作者的思路去看佳缘经历的推荐算法:

在2011年到2013年的算法年,佳缘尝试了两个算法方向,与我的想法非常背离,第一个不是最基本的Content-based,而是Item-based,相信Item-based算法大家都再了解不过,所以就不多做解释。我们只来分析算法的业务应用。Item-based是在构建一个User-Item矩阵,然后计算Item-Item之间的相似度。那么具体到婚恋网站的业务场景,其实也就是构建了一个Man-Woman的矩阵,将Woman当做Item,计算Woman之间的相似度,这个算法场景基于背后的假设是认为,如果一个男人喜欢一个女人,那么他必然喜欢和这个女人相似的女人,换句更直白的话说,每个男人都喜欢自己女朋友的闺蜜。相似,我们将User-Item矩阵做转置后,可以继续做Man的相似度,不再复述。

那么这个算法解决的出发点很好,但是实话实说,其实paper一共就那么多,我总结着看了下,并没有真正有用的东西,也没有创造性的模型产生,只是对于传统推荐算法的一个后过滤,整体思路就是把曾经的无向图变成了有向图,分别求出Man-->Women,Woman->Man的双向关系,然后或者相乘,或者搞一些奇怪的公式去做拟合。作者说不太靠谱,但是我认为这个算法从思路上来说是对路的,无论是不是用他们那些莫名其妙的模型,但是作为思想的参考还是值得借鉴的。

接下来佳缘推荐算法的阶段步入了2014的工程年,作者根据佳缘的团队及业务特点将佳缘推荐做了战略上的调整,从比拼算法模型改成了比拼特征工程。我不了解佳缘的实际情况,不敢多做评价,只是从个人感觉来说也许作者从一个极端走到了另一个极端。从外界来猜测一下佳缘的实现思路:抽出各种各样的特征,例如用户的基本人口学信息,加上用户的行为属性信息等等,然后针对每个用户训练一个分类器,来预测他是不是对对方感兴趣。

那我们来聊聊逻辑回归的根本问题吧:

我相信接下来我说的很多尝试和做法,佳缘都已经尝试过了,但是站在局外者的角度,我认为除了传统的特征工程以及算法模型的优化外,其实接下来的这些才是婚恋网站推荐算法成功的关键(结合佳缘的模式:收取用户的看信费用,其实我没用过):

说归说,我很佩服作者几年来一直坚持着做着同一个产品的推荐算法,也希望大家可以多多讨论。

在<商品推荐算法&推荐解释>一文中,@飞林沙表示,我们做推荐算法的时候要考虑:

但是从工程角度上,并不适合上来就搭建这么复杂的模型,所以我们可以适当做简化,例如:

@飞林沙认为,数据挖掘或推荐系统只要达到目的就足够了,用什么模型其实真的没有那么重要,优化了好久的模型还真的不如加两条规则,或者人工清洗一下数据好用。模型真正的价值是泛化,但是对于工业界来说,泛化能力不需要太强,只要限定在当前的产品线就够了,如果产品形态改变可以再来一个算法。

@breezedeus在原文中提出了自己的感想:

技术为产品服务,而不是直接面向用户数据质量是地基,保证好的质量很不容易如何制定正确的优化指标真的很难业务理解>工程实现数据>系统>算法快速试错

很多刚工作的同学,最喜欢干的事就是套算法,认为懂了算法就什么都会了。真实产品基本都是数据>特征>算法。算法真不是那么重要!

2011年8月我加入世纪佳缘,开始时主要负责佳缘的交友推荐系统优化,后来我这个团队也负责其他的机器学习事情,比如佳缘的网警系统(抓恶意用户)。刚来时团队加上我只有3个人,做的事基本集中在推荐系统,以及对业务部门新产品的接口支持。当时我自己并没有推荐系统应用于工业界的实际经验,所以很想当然地就从自己了解的推荐算法开始工作了。

Item-basedkNN算法的尝试最开始是基于最大化佳缘用户发信量的业务理解,但后来我们发现这个理解跟业务部门的需求偏差很大。比如给男性展示美女,男性的发信就会暴涨,但这样就会导致少量的女性收到大部分信,而大部分女性则没信可收。这是业务部门不愿意看到的。虽然我们尝试在item-basedkNN基础上做调整来平衡其他的业务指标(如收信人数,看信人数等),但效果不理想。

第二个尝试是学术界的可逆(Reciprocal)推荐算法1,即在考虑用户体验的同时也兼顾item(对佳缘来说也是人)的体验。这个尝试基本是失败的,学术界发明的那些算法基本都有各种前提假设,真用起来都不太靠谱。

虽然到2013年我们团队人数上升到了六七人,但基本在推荐算法上做事的人还是只有两个左右。

从2013年底开始我逐渐意识自己对算法的理解过于学术而无法满足业务部门的实际需求。所以从2013年底我开始从业务出发重新梳理推荐算法团队的工作方向。相对于给用户推荐物品的场景,佳缘的在线交友推荐有以下几个特点:

转化链很长,反馈延迟

佳缘业务的高复杂性,加上团队在使用算法上经验不够,让我决定把接下来的算法优化方向放在特征工程上,而算法就限制在最简单的逻辑回归(LogisticRegression)。团队在处理特征的过程中可以积累对数据的处理经验,以及对业务的理解。逻辑回归足够简单,解释性好,也有很好的开源实现。从它开始也可以让团队在算法使用上积累心得。这是“战术”上的第一个选择。我们把上图中每一步转化作为单独的问题分别进行优化,这样逻辑回归就适用于每一步。这是“战术”上的第二个选择。

上面说的“战术”,其实针对的只是推荐系统里的排序系统。当时我对推荐系统整体的想法是把运营需求和用户需求分开,然后分别对他们进行独立优化。具体说就是第一步以满足运营需求为目标获得候选集,而第二步是根据用户(双方)的喜好对候选集进行排序,系统流程图见下图。这样,在优化用户需求时就不需要考虑佳缘复杂的业务逻辑,可以极大地简化问题。同样,我们也可以比较独立地优化满足运营需求的候选系统。这可以认为是推荐系统的“战略”方向。

佳缘推荐系统流程图(2014)

2014年无疑是工程年。

2014年工程年的效果还是不错的,多个转化模型的分别构建和组合使用,使得业务上的各个指标都有所提升,很多指标的提升幅度都超过了50%。

例如,按照上面的流程图,第一步的候选系统通过考虑运营需求来产生候选集,然后候选集由考虑用户需求的排序系统进行排序。如果产生的候选集很小,那排序系统的优化空间就很小,作用自然也不会大;而如果候选集很大,那通过排序系统排序后获得最终推荐结果的做法就会降低运营需求的控制力度。

推荐系统通用流程图

再仔细说明下上面这个流程中的前两步:

相对于2014年运营需求与用户需求独立优化的“战略”,2015年的优化思路有所调整:

那么,为什么把2015年叫做推荐系统的产品年?因为今年推荐系统的目标是优化产品目标!

推荐系统是为产品服务的,而不是直接为用户服务。

上面这句话听起来很简单,但其实很多时候我们会在不知不觉中认为推荐系统是直接在为用户服务的。我们在最早的时候就是犯了这个错误。

本节的最后,汇总罗列下我这几年做推荐的感想:

这节我只是简单罗列下最近几年自己接触的比较有代表性的一些技术,跟工作关系不大。

了解DP主要是因为当时在看Mahout源代码的时候发现有个算法以前竟然没接触过,觉得挺有意思就仔细学了下。DP不太好理解,它被称为分布的分布。从DP抽取出的每个样本(一个函数)都可以被认为是一个离散随机变量的分布函数,这个随机变量以非零概率值在可数无穷个离散点上取值。DPM是非参数贝叶斯聚类模型,聚类时可以让模型自动学习类数。虽然听着好像很不错,其实有很多槽点,具体可见参考文献2(参阅参考文献请点击原文链接)。

LDA是文本处理里的利器,经常被用于对文本进行聚类,或者预处理。更详细的理论介绍可见参考文献3。当时我尝试把它用于佳缘的发信数据,看看能不能找出一些有明显特征的发信群体。聚类结果整体上基本不可解释,但有一个类别意义很明显,这类人主要给离婚异性发信。大家可以想想这类人是什么人。尝试感想是LDA直接用于聚类未必靠谱,但是可以把它用于数据的预处理,比如降维什么的。

ADMM是个优化算法框架,它把一个大问题分成可分布式同时求解的多个小问题。理论上,ADMM的框架可以解决大部分实际中的大尺度问题。槽点很多,谨慎使用!更详细的介绍可见参考文献4。

算法预测的效果还是不错的,准确度达到了87%。这还是在很小训练集上训练后获得的精度。DL麻烦是训练时需要调整的超参数实在是太多了,改一次超参数就要重跑一次,真的是很耗时。没有好的计算资源的话,建议别考虑DL。

实在想不出更多的有用特征?尝试下Facebook提出的利用GBDT来构造新特征的方法吧。我们的使用经验表明确实还是挺靠谱的,只要你效率能扛得住。具体介绍可见参考文献5。

很多个性化特征?特征数量太多?试试特征哈希的方法吧。此方法我们目前也没使用过,欢迎有经验的人发表意见。具体介绍可见参考文献5。

正负样本数量差异太大?训练样本太多机器跑不动?尝试下参考文献7中的抽样方法吧。我们之前的尝试表明还是有点作用的。不过如果你的数据不是大得跑不动,那尝试的必要性就不太大了。

THE END
1.同城社交相亲婚恋系统平台开发同城社交相亲婚恋系统平台是一个为单身人士提供同城相亲交友fuwu的软件平台。以下是该平台开发的主要功能介绍: 一、用户注册与认证 注册方式:支持手机号、邮箱或第三方社交平台注册登录,方便用户快速进入平台。 实名认证:通过第三方刷脸、身份证、手机号等方式对用户进行实名认证,确保每位用户的身份真实,避免虚假信息的存http://144251355.b2b.11467.com/news/9370041.asp
2.2024最新的婚恋源码系统需要具备哪些功能才能吸引大众,用户要产生的婚恋平台作为现代社交应用的一种,需要具备多种功能以满足用户在寻找伴侣、交流互动、了解对方信息等方面的需求。 2024最新的婚恋平台通常需要具备的功能: 贴子频道:归属圈子、查看权限、置顶道具、打赏帖子、礼物赠送等 会员管理:普通、VIP、巡管模式 特殊帖子:音、视、投票、红包、收费等 https://blog.csdn.net/2403_89017723/article/details/144073761
3.相亲app哪个好?相亲app排行榜相亲交友软件下载有缘网苹果版是一个婚恋交友网站,软件通过用户的资料以及兴趣爱好会自动为您匹配有缘的异性朋友,你也可以根据自己的爱好来选择对象,软件支持语音聊天,有效的提高了相亲成功的机率,感兴趣的用户欢迎来绿色资源网 点击下载 百合婚恋交友iphone版 169.20M / 2023-05-05 / v11.6.16 苹果手机版 百合婚恋交友iphone版是http://www.downcc.com/k/xiangqin/
4.正规婚恋相亲平台用户体验,婚恋相亲平台用户体验根据一些统计数据,越来越多的再婚者选择通过婚恋平台寻找另一半,其中不乏成功的案例。而在这些成功的背后,平台的设计与用户体验是至关重要的因素。举个例子,一些婚恋平台的智能匹配系统,通过大数据分析,可以准确推算出用户的兴趣爱好、价值观及性格特点,这种定制化的服务,使得再婚者能够更高效地找到合适的伴侣。 http://www.aichao521.com/hunl/30594.html
5.相亲网站哪个靠谱征婚网站哪个靠谱广州网易计算机系统有限公司,心遇是网易旗下恋爱交友APP,是一款基于真实的开放性移动社交应用,主要功能包括快速发现及智能推荐同城、附近用户,也可通过文字、语音、图片等方式展现自己的交友信息,以权威AI算法审核信息,高效过滤虚假用户,提供真人认证的多元化相亲交友方式。 查看更多 网易同城约会 网易花田 MarryU 成https://m.maigoo.com/maigoo/937hun_index.html
6.婚恋咨询平台排行榜最新:寻找你的情感导航仪有些平台还会结合大数据分析,推荐适合你性格、兴趣和价值观的另一半,精确到让你感到有点“吓人”的程度——你甚至会怀疑平台是通过高科技了解了你的内心深处。 这些平台的现状如何?虽然看似成熟,但也存在一些问题和挑战。根据相关数据,目前市场上的婚恋咨询平台数量已经超过千家,但真正具备系统性、专业性的,能在排行http://www.wedating.cn/hunl/47426.html
7.毕设精选基于SpringBoot和Vue的相关系统51CTO博客springboot253社区养老服务系统含文档附源码 springboot252基于Springboot和vue的餐饮管理系统含文档附源码 springboot259交通管理在线服务系统含文档附源码 springboot280基于WEB的旅游推荐系统含文档附源码 springboot258流浪动物救助网站含文档附源码 springboot269反欺诈平台含文档附源码 https://blog.51cto.com/u_14519396/8680059
8.靠近交友靠近交友,让脱单变得很容易http://www.marry5.com/
9.2018中国品牌力指数发布珍爱网实现婚恋行业“三连冠”界面新闻珍爱网通过独有的“网络筛选+人工红娘+线下直营门店”的模式,为旗下1.4亿优质会员提供高效率、高质量和高安全性的婚恋服务。珍爱网在庞大的数据库中,运用婚恋匹配推荐系统,为会员筛选出最合适伴侣;会员可在珍爱网线下直营店享受人工红娘的面对面服务,红娘通过专案、筛选、牵线、约见、撮合为会员提供一对一的相亲服务https://www.jiemian.com/article/2046876.html
10.婚恋系统智能推荐算法的研究与应用【摘要】:随着互联网中用户数据的爆炸式增长和机器学习在各个领域的迅速扩张,用于解决婚恋交友问题的相关智能推荐算法也日趋活跃。本文以研究婚恋系统中智能推荐算法为课题,重点研究了具有较高准确率、泛化能力以及鲁棒性的婚恋推荐算法和婚恋系统中用户冷启动问题的解决方案,并以网站的形式将算法研究与应用结合起来,为用https://cdmd.cnki.com.cn/Article/CDMD-10614-1021746192.htm
11.第一届全国大学生数据挖掘邀请赛开放注册——推荐系统相关推荐在社交网络中的应用同样受到业界重视。本届统计建模竞赛由上海花千树信息科技有限公司赞助,由中国科学技术大学管理学院、中国人民大学统计学院、统计之都(COS)网站联合举办。目标是为某个以婚恋为目的的大型交友网站提供会员推荐的智能算法,改善会员推荐的精度,增加网站黏度。 https://wap.sciencenet.cn/home.php?mod=space&do=blog&id=424094
12.爱情咖啡馆加盟店爱情咖啡馆加盟费多少钱/电话针对只需要寻求婚恋一对一准确匹配的会员,MarryU爱情咖啡馆则面向线上MarryU相亲交友App的1200 万用户为会员进行定向准确匹配服务。 MarryU爱情咖啡馆依托MarryU APP既能够在庞大的数据库中,运用婚恋匹配推荐系统,为会员筛选出合适伴侣;也能够让会员在MarryU线下享受面对面服务,专业婚恋工作人员对会员的心理、外形进行http://wap.canyin.com/kafei/aqkfeig.html
13.pg模拟器(试玩游戏)官方网站·模拟器/试玩平台传统相亲网站的运营模式就限制了推荐系统的使用。 2. 用户使用满意度不高:只有开通VIP或支付水钻才能私信。 【费用参考】 1. 服务不同,则收费也就不同。 【Extrabux返利情况】 暂无返现。 8. 一伴婚恋交友平台 图片来自于yiban1314.com,版权属于原作者 【网站地址】:http://www.yiban1314.com/ 【网站介绍】http://dewljj.omuni.cn/
14.大数据公司挖掘数据价值的49个典型案例通过这些数据,业务员可以分析顾客的购买行为,从而供应最佳的销售服务。沃尔玛一直致力于改善自身的数据收集技术,从条形码扫描,到安装卫星系统实现双向数据传输,整个公司都充满了数据基因。 2012年4月,沃尔玛又收购了一家研究网络社交基因的公司Kosmix,在数据基因的基础上,又增加了社交基因。 https://mse.xauat.edu.cn/info/1037/1987.htm
15.2024至2030年中国互联网婚恋交友行业发展前景预测及投资策略研究数据驱动与用户行为分析数据分析在推动互联网婚恋交友行业的发展中扮演着关键角色。通过对用户画像、兴趣偏好和交互模式的数据挖掘,平台能够提供更为精准的匹配服务,从而提升用户体验和满意度。此外,大数据分析还帮助开发者识别市场趋势,预测用户需求变化,为个性化推荐系统优化提供依据。方向与创新随着技术的进步和消费者需求https://m.book118.com/html/2024/0804/8137045103006116.shtm
16.2024年电视媒体行业现状与发展趋势随着互联网技术的发展,电视媒体将更加注重数字化转型,通过引入大数据分析和智能推荐系统,提高内容的个性化推荐和精准投放。同时,随着对观众体验的重视,电视媒体将更加注重互动性和参与感,通过引入社交功能和互动环节,增强观众的参与度。此外,随着对电视媒体质量和内容要求的提高,电视媒体将更加注重质量控制,通过引入先进的https://www.cir.cn/R_QiTaHangYe/6A/DianShiMeiTiHangYeXianZhuangYuFaZhanQuShi.html