深度解密今日头条的个性化资讯推荐技术腾讯云开发者社区

本文主体分以下三个大的部分。除此以外也会在最后用一小节展望下个性化资讯推荐的未来。

资讯推荐产品要解决用户需求很简单,一句就可以概括:为用户找到有趣的资讯。而做到这个需求就要做好两个关键点:

更进一步,如果将上述两个关键点展开,一个好的个性化资讯产品就要具备以下亮点:

1.时效性

这是所有资讯类产品共同的特性,而不仅仅是资讯推荐类产品。人们总是希望通过你的产品看到最近发生了什么,而不是很久之前的老新闻。

2.精准性

每天发生的事情有很多,对应的新闻稿子也非常多,如果每个都看,信息过载的问题会让人吃不消。你能否猜出我的兴趣,并精准地推荐感兴趣的新闻才是用户关心的,也是用户能直接感受到的体验。

3.丰富性

这点恰是很多用户最容易忽略的一个点。其实很多用户才不管这个资讯类产品是怎么推出来的,对于单个用户而言,其第一诉求必然是通过这个产品来了解世界,知道每天都在发生什么,所以新闻的丰富性是最最基本的。

4.排他性

谁都不想在周围朋友们讨论热点事件时,自己是个懵逼,什么都不知道。这点很关键,跟精准性和个性化看起来有点背道而驰,但人性天生就有求同的天性。没有同样的话题,生活将会失去太多色彩,不知道该和人交流什么。

6.高质量

7.合法性

人总是对非法的事情感兴趣,如黄赌毒之类。而对于被压抑的需求,则更是感兴趣,如色情之类。但一个伟大的产品,首先必须是一个合法的产品。所以,一切尽在不言中了。

要做到上一节提到的产品特性,有两条路可以走:人工运营和算法推荐。在类头条产品出现之前,请新闻方面专业人才来运营是最稳妥的方式。但人工运营成本越来越高,局限性越来越明显。走算法推荐的路,在张扬个性的年代,是一条必由之路。下表简要对比下两者的差别。

推荐算法应用在资讯类产品时有一些挑战,这也是资讯推荐能否做好的关键所在。

●可扩展性

推荐本质是建立user和item的关联,一般问题要么是user侧量级大,要么是item侧量级大,而资讯推荐是典型的“双大”场景。又由于是高度依赖个性化的场景,还不能简单地将某一侧大幅降维,所以可扩展性显得尤为重要。

●稀疏性

资讯的高度个性化自然而然的带来一个很棘手的问题就是稀疏性。举个最简单的例子,如果将user和item的点击行为用矩阵形式表示出来,会发现比一般问题更多的0项存在。而稀疏问题是一直困扰机器学习高效建模的一大难题。

●冷启动

每天都有大量的新闻产生,如何将如此多的新闻快速、合理地冷启动,尽快将高质量的新闻推给合适的用户是个大问题。

●时效性

●质量保证

●动态性

围绕上面这几个挑战,业界各大资讯类产品在做推荐时想出了各种招儿来解决,接下来,我们就梳理下业界经典的做法。这里以产品为主线,以具体要解决的问题为辅线来进行梳理,会集中介绍下GoogleNews、YahooToday、今日头条等产品的推荐算法,并着重介绍下深度学习在这个领域的最新进展。

●GoogleNews

GoogleNews是一款经典的资讯推荐产品,也是后来者竞相模仿的对象。2007年,GoogleNews在www上首次发表论文《GoogleNewsPersonalization:ScalableOnlineCollaborativeFiltering》公开资讯推荐技术。该论文的做法非常自然、简洁,从论文题目就能看出是CF的落地上线。Google是这样想的:鉴于大家都觉得CF是推荐领域公认的有效算法,那将其直接用在产品上效果自然也不会太差。

但经典的CF有个巨大的问题,无论是user-based还是item-based,当你要算任意两个user或者两个item之间相似度的时候,计算量会非常巨大。因为CF的计算量直接取决于特征维数和user、itempairs的数目,而资讯类产品这两个数目都非常巨大:

Google这篇论文的核心就是将CF改造为支持大规模计算的方法。

其原理也很简单:将用户事先分成群,再做user-basedCF时实际变成了(user)cluster-basedCF。这样在工程实现上就简化了很多,线上只需要记录每群用户喜欢什么(实际做法是用到了基于的内存key-value系统,key为资讯ID,而value则是资讯在用户群上的各种统计值)。一个用户来了之后,先找到其对应的群,再推荐这个群喜欢的资讯就好。而线下则借助Map-Reduce实现了MinHash、PLSI两种聚类分群算法,定时把最新分群结果推到线上。

结合前面总结的资讯推荐的挑战,可以看到该算法主要解决了可扩展性问题。我们也不难发现这个usercluster-based的算法也有一些明显的缺点:1)它不能解决新用户、新资讯的冷启动,因为没有行为数据来支撑CF运转;2)推荐精度不够高,没有做到真正的个性化。这是cluster-basedCF算法本身的特点决定的;3)实时性不够。用户聚类不能做到快速更新,这导致了对用户最新兴趣把握有不及时的风险。这些问题在GoogleNews的另一篇论文中得到了解决。

方法主要建模用户对当前某类新闻的感兴趣的程度,这取决于两个方面:用户对这类新闻的兴趣度以及当前某类新闻的热度。通过贝叶斯理论,这两个方面可以直接用如下公式联系在一起:

其中分子左半部分

●YahooToday

所谓的bilinearmodel的含义当你隐去一个自变量时,另一个自变量和因变量成线性关系。比如下式不考虑z时,s和x成线性关系;不考虑x时,s和z也成线性关系。进一步如果将用户和资讯的特征分为静态和动态两大类,则上式可写为:

最后一个等式后面的第一项是静态预测得分,第二项则是动态预测的得分。

稍微高大上一点的做法则是upperconfidencebound(UCB)策略:假设有K个新item没有任何先验,每个item的回报也完全不知道。每个item的回报均值都有个置信区间,而随着试验次数增加,置信区间会变窄,对应的是最大置信边界向均值靠拢。如果每次投放时,我们选择置信区间上限最大的那个,则就是UCB策略。这个策略的原理也很好理解,说白了就是实现了两种期望的效果:

深度学习篇

1)embedding技术。此时深度学习主要用来学习user/item的embedding也就是通常意义上的user/item的表示形式,每个user/item可以表示为一个向量,向量之间的相似度可以用来改善推荐。这里深度学习的重点是用来学习合理的表示;

YahooJapan的新闻推荐团队利用denoisingautoencode的技术来学习新闻的vector表示。Autoencode大家可能比较熟悉,它通过最小化变换前后信号的误差来求解,而denoising则是对输入随机加入一些噪声,再对其进行变换输出,最终是通过最小化加噪声后的输出和原始(不加噪声)输入之间的差异来求解。应用中不少结果表明,这种方法比传统的autoencode学习到的vector效果更好。具体示意图如下。

但这种方法是经典的无监督学习套路,直观来看和应用场景中要求相似新闻的vector也要尽量相似没有直接的关联(这里单单从优化目标来看,实际上由于语料的天然性质或者人们用语习惯,这个相似性的要求已经间接隐含在优化目标里了)。而新闻有很多人们编辑好或者其他模型产生好的类别信息,假如A、B新闻都是体育类,C是教育类的,通常意义上来讲A和B相似度是比A和C要高的。这是在训练深度学习时已知的先验知识,如果能把它加入到优化目标中,学习到的vector就能更好的表达相似度信息,于是有了下面的方法。

如图所示,通过在原始autoencode的优化目标中加入“同类新闻相似度大于不同类新闻相似度”这一项,我们就可以把先验知识作为约束加到模型中。YahooJapan的人实验证明了如此得到的vector确实能更好的表示(相似度信息)。

目前只介绍了如何得到item的vector,实际推荐中要用到的一般是user对一个item的兴趣程度,只有在得到uservector后才能通过算user和item的相似度来度量这个兴趣程度。那么如何得到user的vector呢?了解的同学可能能想到,既然我们已经得到了新闻的item的表示,想办法把他们传到user侧不就行了么?

确实如此,一种简单的做法是把用户近期点过的所有新闻的vector取个平均或者加权平均就可以得到user的vector了。但这种模式还有优化的空间:1)用户点击是一个序列,每次点击不是独立的,如果把序列考虑进去就有可能得到更好的表示;2)点击行为和曝光是有联系的,点击率更能体现用户对某个或某类新闻的感兴趣程度。鉴于这两点,我们很容易想到通过深度学习里经典的解决序列学习的RNN方法,Yahoojapan的人使用的就是一个经典的RNN特例:LSTM。训练时将用户的曝光和点击行为作为一个序列,每次有点或不点这样的反馈,就很容易套用LSTM训练得到user的vector,具体做法如下图所示。

对应的神经网络结构如下图所示。

作为国内当红的个性化推荐产品,今日头条技术经历了三个阶段:

1)早期以非个性化推荐为主,重点解决热文推荐和新文推荐,这个阶段对于用户和新闻的刻画粒度也比较粗,并没有大规模运用推荐算法。

任何一种算法都有其局限性,业务要结合自己产品的特点,选择合适的算法解决特定的小问题,融合各种算法解决一个大问题。另外要设计合理的实验和放量机制,以在有限的影响内,最大程度地利用真实的用户行为来修正算法判定的结果。比如,可以先放5%的流量来试探用户对新闻的兴趣,并用模型进行建模;再用15%的流量来修正模型的效果,进行优胜劣汰;最后将真正置信的推荐结果推送到全量用户。

个资讯消费是人的基本需求,个性化资讯推荐让我们能更好地消费资讯,享受生活的快乐。个性化资讯推荐还有很长的路要走,目前面世的产品仅仅迈出了第一步,看起来有模有样,实际上问题多多。例如被吐槽最多的一个问题:用户一天看了很多,但睡前闭目一想,记住的很少,对自己有用的更是凤毛麟角。这只是一个表象,背后其实暴露了很多现有推荐的问题。

要做好一个资讯推荐产品,不单单精准推荐技术需要演进,呈现形式、交互方式、产品形态、内容生态等等都需要去探索,最最重要的要想清楚以下几个本质问题:

加油吧,个性化资讯推荐!

1.桑赓陶,《把握市场、产品和技术的动态匹配——韩国三星电子公司产品开发战略演变的基本原则及其对中国企业的启示》

2.PersonalizedRecommendationonDynamicContentUsingPredictiveBilinearModels[www,2009]

3.GoogleNewsPersonalization:ScalableOnlineCollaborativeFiltering[www,2007]

5.ASurveyonChallengesandMethodsinNewsRecommendation[WEBIST,2014]

6.PersonalizedNewsRecommendationBasedonClickBehavior[www,2010]

7.AContextual-BanditApproachtoPersonalizedNewsArticleRecommendation[www,2010]

8.LearningDeepStructuredSemanticModelsforWebSearchusingClickthroughData

9.AMulti-ViewDeepLearningApproachforCrossDomainUserModelinginRecommendationSystems[MSResearch]

THE END
1.要闻头条光明网 中国新闻网 中青在线 中国军网 法治网 违法和不良信息举报电话:010-56807188 网上有害信息举报 新闻热线:400-800-0088(节目覆盖热线) 中国互联网联合辟谣平台 互联网新闻信息服务许可证10120210001 电子邮箱:4008000088@cnr.cn 京ICP备2021013708号 京公网安备11010602007741 中央广播电视总台 央广网 央广网https://www.cnr.cn/hn/jrhn/
2.今日头条2024-12-05 16:53:59 [今日头条] 总书记的这个倡议,既有大工程也有“小而美” 2024-12-05 11:57:27 [今日头条] 人民至上 2024-12-05 08:382024-12-04 08:33:25 [今日头条] 习近平会见尼泊尔总理奥利 2024-12-03 20:17:12 [今日头条] 时政新闻眼丨第四次召开这一座谈会,习近平为高质量http://www.tynews.com.cn/jrtt/index.shtml?d=123
3.今日头条当前位置:首页>新闻动态>今日头条 今日头条 习近平同柬埔寨人民党主席、参议院主席洪森会谈2024-12-04习近平:坚定战略自信 勇于担当作为 全面推动共建“一带一路”高质量发展2024-12-03 http://edu.yiyang.gov.cn/12595/12596/38667/index.htm
4.社会新闻12月5日,广州市人大常委会举行《广州市电动自行车管理规定》(下称《规定》)新闻通气会,介绍将于今年12月30日正式施行的《规定》相关情况。在新规中,要求电动自行车“在非机动车道内行驶时最高时速超过15公里”“即时配送企业对一周 新华鲜报丨破“一床难求”!我国多地试行“共享病床” https://news.cctv.com/news/society/
5.新闻新闻相关新闻搜索与新闻相关的新闻 重庆90后“公交西施”:18岁开铲车几乎全年无休,喜欢脚踏实地的生活 邱玲新闻视频2024/10/22 特朗普粉丝泪流满面:我们的国家有了第二次机会 特朗普呼喊声新闻2024/11/06 防止播音员“讲真话”,NHK开始预录中文新闻 钓鱼岛新闻中国2024/08/25 https://kan.china.com/qd/sogou2/zhuanti_xinwen.html
6.头条新闻网今日新闻头条最新头条新闻头条新闻网第一时间报道今天新闻头条,传播新闻事实,探寻事实真相,最新、最近头条新闻关注热点新闻事件,对今天头条新闻发出价值评论。http://www.topnews.cnnewssky.cn/
7.热点今日头条是一个通用信息平台,致力于连接人与信息,让优质丰富的信息得到高效精准的分发,促使信息创造价值。为您提供热点类内容信息。https://landing.toutiao.com/ch/news_hot/
8.新闻头条免费下载安装新闻头条极速版下载下载c位趣新闻头条 2020-06-1035.0M v1.2.9 安卓版 推荐理由:c位趣新闻头条,一款集资讯阅读与赚钱于一体的手机资讯阅读软件,汇聚大量精彩内容,阅读方便,让您在掌握各种热点资讯同时还能轻松赚到大量收益,简单又实用。 下载极速搜索app 2020-06-0613.9M v3.1.1 最新版 推荐理由:&极速搜索app是一款手机搜索软件https://www.qqtn.com/qqkey/xwttzx/
9.AppStore上的“唔哩头条用过几款类似的软件,比如:今日头条,网易新闻,腾讯新闻,新浪新闻,搜狐新闻等这种类似的软件,最后还是感觉这款软件更适合年轻人阅读,体验最好~—— 不忘初心 很喜欢这个软件,推荐频道内推荐的新闻都是我喜欢看的,很智能,视频内容也很丰富,各类视频都很齐全也很有趣,希望唔哩可以越来越好。——花痴本痴 https://itunes.apple.com/cn/app/id1068045574
10.成都头条网成都头条网(www.cdqx.cn)是一个汇聚天府之国最新热点头条和深度解读时事网站。深度解读城市热点话题直击城市最热资讯现场。https://www.cdqx.cn/
11.头条新闻截图生成器头条新闻截图生成器-Break Your Own News是一个热门的趣站网站&程序、归属于无峰导航中的探索发现导航。目前已经有(3.8K)人浏览过头条新闻截图生成器-Break Your Own News,广受网友们的一致好评。感兴趣的朋友户,欢迎通过提供的头条新闻截图生成器-Break Your Own News网址入口访问。实际体验! https://www.8kmm.com/sites/9604.html
12.头条新闻截图生成器BreakYourOwnNews用来小范围恶搞相当有趣了!网站可以在线生成电视上头条新闻画面的截图,随随便便我们也可以上电视啦! 网址:https://www.breakyourownnews.com/ &nbshttps://home.designshidai.com/8636.html
13.微信头条手机下载安装微信头条新闻免费版下载安卓版v5.30.0微信头条是一款非常棒的新闻阅读软件,这里有每天的实时新闻,也有大家身边发生的有趣事情,海量热门微信文章,微信头条还有本地生活“一键触达”服务,帮助用户快捷准确地获取信息,微信头条可以根据你的喜好来推送不同的内容,总之看到的都是你喜欢看的类型,了解生活大小事,就用微信头条 《微信头条》是一款由搜狗专为手机用http://www.kkx.net/az/41523.html
14.iOS仿今日头条顶部新闻分页ios开发仿照头条新闻滑动界面近日闲来无事总是刷头条,突然发现了一个有趣的现象,如下图:当你滑动或者点击分页的名字的时候,不管当时那个分页在哪,最后都会被滚动到最中间.我又去翻了其他的资讯类的app,发现基本很多都是这样做的.抱着求知的心态,自己也搞一个类似的新闻分页,分析一下其中的原理.https://blog.csdn.net/qq_18372347/article/details/79759377
15.唔哩头条app下载唔哩头条安卓版下载[新闻阅读]唔哩头条安卓版是一款界面美观简洁的新闻阅读应用,唔哩头条安卓版可以阅读各大新闻资讯内容,满足用户个性化阅读需求。唔哩头条打造年轻的轻社交新闻媒体平台,始终致力于满足用户获取新闻资讯,并提供除此以外的有趣的使用体验。 功能介绍 1) 风格简约,画面太美撩拨神经 唔哩带给你简洁的用户体验,干净优雅的界面风格http://mip.downza.cn/soft/10392763.html
16.东方资讯揭秘红点奖设计作品:胡同学校改造究竟有何过人之处? 两个月十余次“天降”垃圾!抽丝剥茧 “黑手”是这样找到的 扫码阅读手机版 更多 关于我们 广告投放 联系我们 银行保险商务合作 友情链接 东方影视 头条视频 电脑管家 逗游网 第一手游网 MSN 中国 https://mini.eastday.com/
17.今日新鲜事今日新闻头条新消息本月,华为有产物经由过程了国度 3C 量量认证,比方那款型号为 MGA-AL00 的 4G 新机, 高撑持 22.5W 有线充电,今朝独一一款近似的装备是华为 Mate 9 (MHA-AL00),各年夜数码博主猜 新闻头条 0 人阅读 0 条评论 阅读全文2024年09月09日 欧盟力争 USB-C 成为所有智能手机充电器标准,包 据Apple Insiderhttps://www.toutiao123.net/
18.头条热门娱乐新闻的微博头条热门娱乐新闻 2020-6-8 13:47 来自微博云剪 #娱乐#哈哈哈哈哈哈哈哈哈第一反应不像,想了想正经的时候也是像的。不过还是沙雕本体更有趣。 ?收藏 转发 3 ?4 c +关注 头条热门娱乐新闻 2020-6-5 15:53 来自微博weibo.com 发布了头条文章:《大自然的”调色板“ https://www.weibo.com/3089573084/
19.车友头条汽车头条新闻资讯汽车行业的“今日头条”,专注于汽车头条、汽车资讯,专业资讯给你不一样的新鲜视角。【视频】新车评车精选视频、不只是汽车,搞笑、社会…边看边评欢乐多;【资讯】聚合海量新鲜内容,下拉总有新内容,及时追踪汽车资讯热点;【原创栏目】多款汽车原创特色栏目,专业评测、汽车导购、汽车趣评、车展直播情景说车好玩有趣停https://app.mi.com/details?id=cn.mucang.android.qichetoutiao
20.黑龙江头条网黑龙江头条网是专注于黑龙江地区新闻资讯的门户网站。我们致力于为广大网友提供全面、及时、深入的黑龙江本地新闻,涵盖政治、经济、文化、社会等各个领域。通过黑龙江头条网,您可以轻松掌握黑龙江的最新动态,了解本地发生的重要事件,感受龙江大地的独特魅力。https://www.hbwys.com/
21.今日头条范文12篇(全文)他成立的这家公司有个很有趣的名字——字节跳动(bytedance),顾名思义,公司产品和数据相关。bytedance开发出名为“今日头条”的手机应用,成为国内增速最快的新闻客户端。除了“今日头条”,字节跳动旗下还有“内涵段子”、“内涵漫画”、“好看图片“”今晚必看视频”等12 款应用。总体表现不俗,其中的“内涵段子”在https://www.99xueshu.com/w/ikeykyhuz9tt.html
22.网易新闻腾讯新闻今日头条评论功能的交互设计进行对比分析最后,没有了发表评论的输入框,取而代之的是一个“输入按钮”,这样设计的目的我认识是为了更多地展示其他用户评论的内容,便于用户看评论。 图10 腾讯新闻直播类内容评论截图 今日头条 今日头条的首页见图11。今日头条首页的不同之处在于它强调了发布的作者。https://m.netshop168.com/article/27414.html
23.澳洲妈妈打女儿的新闻上头条,网友纷纷晒出童年被打经历:我们因此随后,塔尼亚的故事立即登上了当地的新闻头条。老外都觉得不可思议,议论纷纷。成千上百的澳大利亚人开始回忆自己小时候被打的故事,并发上了如今自己笑得阳光灿烂的照片。他们想要说明:小时候被父母严厉“修理”过,没有让他们因此留下心理阴影,反而“成为了更好的人”。那么法官的处理,是不是小题大做了呢? http://wenhui.whb.cn/zhuzhan/yingshi/20190704/274862.html
24.麻辣星闻麻辣星闻提供有趣的娱乐星闻资讯,让您一站式掌握明星,电视,网红,时尚等娱乐星闻资讯。麻辣娱乐以内容为根本,用户体验为核心,原创娱乐星闻资讯平台。http://luotianews.com/?p=84809