在线约会系统中的机器学习机器学习软件开发

在线约会的核心问题有太多的可挑选对象。为了防止用户无所适从,我们需要提供智能匹配。简单来说,你需要评估一下不同人们之间的“约会相容性(datingcompatibility)”矩阵,从而建立一些匹配,这些匹配能够最大可能的使得约会成功。

如果这个爱情距离矩阵很小,你可以轻松的算出匹配,然后就能够给每一个人一个最佳匹配。比如,你可以用匈牙利算法来解决这一分配问题。然而,当我们处理数以百万计的用户量的时候,计算爱情距离矩阵就不现实了,并且我们的匹配也不是完美的,所以我们需要提供多个匹配。

John提供了一个“三级跳”的方法来解决这些问题:

相容性分级

第一部分是最简单的:根据一些调查和从心理学的角度来看,人与人之间或多或少是具有相容性的。相容性分级既包括单人的人格特质也包含了人与人之间的二元特质——也就是相似性(similarity)。

相容性结果也使用了性别偏好、年龄段和所在地等因素进行了过滤。第一步通过硬阈值消除了大量的不兼容的匹配。这样就把爱情距离矩阵转换成了更加易于处理的不含0元素的矩阵。我私下揣摩,这样也可能导致创建一些小分组,比如基于所在地的分组等,这些分组可以为后续的并行运算做准备。

相似性计算

相似性分值是两个用户愿意交流的概率。这个分值是基于逻辑回归模型训练得到的。训练数据包括了一些日志,这里面记载了两个用户是否曾经给对方传递过个人资料。训练通过VowpalWabbit来完成,这是一个听起来挺可怕,但是功能强大的机器学习包,可以在TB级别上做线性和逻辑回归模型的在线训练。

你的特征关系到你的生死;eHarmony公司采用经典的特征,如网站使用率统计数据、文本特征(我猜测是bag-of-words模型)和照片数量等,这些数据从成对的用户中提取得到。我认为训练矩阵也包括了相似的特征,比如相容性等级。有趣的是,最近eHarmony公司也涉足了照片分析。

John首先展示了使用Viola-Jones探测器提取图像特征(比如脸部区/图片区)的例子。无处不在的Viola-Jones检测器采用级联分类器存根来检测一副图像中是否包含了人脸,它在OpenCV中有具体实现。这个分类器使用了类Haar特征,这种特征可以使用积分图像进行高效的计算,同时,分类器使用AdaBoost算法进行训练。

FaceParts检测器

然后,John展示了使用FaceParts检测器进行检测的一些结果,这部分内容我不懂,但是效果还是相当惊人的。FaceParts包含的思想是,一个人脸可以看出是由多个部件构成的,这些部件可以放置到一个树形结构中。部分匹配(可以看成一个图形的一部分如果识别成眉毛,那么这种识别可以用一个分值来表示)通过计算模板和特征集的高斯直方图(HOG)的点积得到。

FaceParts

各个部分通过一些“弹簧”连接起来,所有弹簧的弹性决定了这种连接方式的能量——能量越低,配置就越好。外观和结构分数的加权和确定了一个特定的连接的“良好”程度。

由于弹簧模型使用了特殊的树形结构,所以所有连接的良好程度可以使用消息传递算法来进行评估和最大化。由于允许使用一些额外的树形结构——比如,一个用于前脸,一个用于轮廓——所以姿势估计、检测以及标志性的检测都可以使用相同的步骤来完成。相当不错。

我的理解是,这些特征没有在相似性模型中进行双向性的编码:比如,它没有尝试把有胡子的家伙跟展示乳沟的女士进行匹配。相反,这些单向性的特征都是决定了你吸引别人进行交往的能力。

那么,下一步,你有多让人喜欢从而收到交流邀请就是很重要的了。这时候,匹配就用来使得每个人都开心了。

潜在相似性匹配

一个非常有趣的发展前沿——不是现在在用的——是根据人们的个人资料来给他们提供恰当的匹配数量。有些人喜欢更多的选择,而有些人,比如内向的人,或许更喜欢少一点的。

一种不太理想,但仍然非常快速和有效的策略称为UCB策略,它说的是你应该挑选那个上限信心索引最大的机器。所以在这种情况下部署UCB策略,可以迅速找到一个用户的最佳匹配的数目。

总结

尽管该文件所依据的调查由eHarmony公司自己来完成的,但是统计结果看起来是可信的,并且PNAS是一本相当好的杂志。

THE END
1.局域网交友平台设计与实现6.1交友数据 a、能够将交友数据一键导出为execl表格 b、性别、部门、学校、MBTI、星座、故乡的统计图 6.2网站数据 a、能够显示网站的登录数据。包括登录IP,登录时间,是否管理员登录。 1 2 3 4 5 三、性能需求 响应时间:用户操作的响应时间应在 3 秒内,确保用户体验流畅。 https://blog.csdn.net/weixin_44679919/article/details/144271230
2.开发一个前后端分离的webgis城市共享单车投放管理系统(2)currentDrawType用于存储当前绘制类型(点线面),vectorSource用于存储当前绘制矢量图层源,用于操作后续的清除绘制图层操作,setDrawType(type)用于设置当前绘制类型,setVectorSource用于设置当前矢量数据源,clearDraw()用于进行矢量图层的清除操作 新建@/components/DrawButton.vue https://zhuanlan.zhihu.com/p/9646296403
3.pythonk邻近算法应用实例(一)改进约会网站的配对效果改进约会网站的配对效果 应用背景: 某约会网站收集了一些数据放在datingTestSet.txt中,每个样本数据占据一行,总共有1000行。样本主要包含以下3种特征: □ 每年获得的飞行常客里程数 □ 玩视频游戏所耗时间百分比 □ 每周消费的冰淇淋公升数 在将上述特征数据输人到分类器之前,必须将待处理数据的格式改变为分类器可以接https://segmentfault.com/a/1190000011266815/
4.机器学习(七)基于KNN分类的约会网站配对改进算法某APP用户希望分类软件可以更好地帮助她将匹配对象划分到确切的分类中。此外还可以收集了约会软件未曾记录的数据信息,她认为这些数据更有助于匹配对象的归类。收集的部分信息如下图所示: 数据集下载 样本主要包含以下3种特征: 每年获得的飞行常客里程数 玩视频游戏所耗时间百分比 https://www.ucloud.cn/yun/19982.html
5.机器学习(一)——KNN算法之约会网站匹配效果为了熟悉和掌握K近邻算法,改进约会网站的匹配策略。 【实验要求】 用KNN算法改进约会网站的配对效果。 【算法原理】 k近邻法(k-nearest neighbor, k-NN)原理:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将https://www.jianshu.com/p/a4fd43024370
6.8月约会日期,带有数字多维数据集设计背景.日期8库存照片.图片照片 关于 8月约会日期,带有数字多维数据集设计背景. 日期8. 图片 包括有 季节, 纸张, 格式 - 325581548https://cn.dreamstime.com/%E6%9C%88%E7%BA%A6%E4%BC%9A%E6%97%A5%E6%9C%9F%EF%BC%8C%E5%B8%A6%E6%9C%89%E6%95%B0%E5%AD%97%E5%A4%9A%E7%BB%B4%E6%95%B0%E6%8D%AE%E9%9B%86%E8%AE%BE%E8%AE%A1%E8%83%8C%E6%99%AF-%E6%97%A5%E6%9C%9F-image325581548
7.网络问卷调查系统12篇(全文)以ed X开放数据集中的学习者类型和比率来看, 全球用户中获取证书者 (certified) 占2.8%, 积极学习者 (explored) 占3.5%, 一般学习者 (viewed) 占56.1%, 仅注册者 (registered) 为37.6%, 而国家信息为中国的用户当中, 这几项的比例分别为1.2%、2.4%、62.1%和34.3%。研究显示, 除去学习者语言、网络访问等https://www.99xueshu.com/w/ikeyovrwf3nd.html
8.约会app开发仿爱聊软件app定制开发算法是围绕特定任务构建的指令集,旨在通过特定的数据处理获得所需的结果。 以同样的方式,约会软件app算法用于根据用户的偏好、行为和其他重要因素(如年龄、位置、兴趣和个性特征)来匹配用户。 它们旨在从用户的活动中学习,因此,随着时间的推移,推荐会变得越来越好。 https://www.yanding8.com/post/1764.html
9.海伦约会数据(KNN练习)数据集天池实验室 数据集 公共数据集 正文 海伦约会数据(KNN练习) 我要牛叉2018-10-1513614CC-BY-SA-NC 4.0 新建Notebook 内容 Notebook 评论 描述 暂无描述 数据列表 数据名称上传日期大小下载 datingTestSet2.txt2018-10-1526.43KB 文档 目录https://tianchi.aliyun.com/dataset/4917
10.AutoML取人代之?四个工程师两个数据集将之干翻!快速(约会)分类数据集测试结论: 数据科学家能够向 AutoML 平台提供特征工程数据集,从而提高该平台的性能水平。 Azure 在具体使用模型方面更为透明;谷歌平台则拒绝公开模型创建与选择信息。 谷歌无法很好地处理独热码变量。 数据集 2: ASHRAE 数据集概述 https://www.51cto.com/article/609129.html
11.将约会XML数据导入Outlook约会对象(Outlook)Microsoftxml是 XML 字符串或表示有效 XML 文件的路径的字符串。 就以下代码示例而言,XML 使用以下 XML 标记分隔约会数据: 约会数据分隔 XML 标记 整个约会数据集<约会> 约会集中的每个约会<委任> 约会的开始时间<starttime> 约会的结束时间<endtime> 约会标题<主题> https://msdn.microsoft.com/zh-cn/ff869762/
12.上传者:qq41855990时间:202007机器学习 约会网站数据集 上传者:qq_40506723时间:2021-10-02 数据预处理-归一化-数据文件dating.txt 数据预处理-归一化-数据文件 上传者:csj50时间:2023-08-07 Springer-R-book:V. Pagonis-Springer于2021年为《使用R进行发光数据分析和建模》一书的R代码 https://www.iteye.com/resource/qq_41855990-12623594