推荐卖点是一种商品文案,或者称之为对商品的描述。商品文案,即电商平台中在线利用文字来描述商品的特征、特色点、详细信息,以辅助商家吸引顾客、促进商品销售,丰富商品的推荐理由。
商品文案有多种类型,不同类型的商品文案有着不同的功能,主要包括长文案(商品标题和商品描述),短文案(卖点)。
传统的商品文案多是由人工撰写,费时费力,撰写速度也很难跟上新商品的迭代速度。随着自然语言处理飞速地迭代和发展,尤其是深度语言生成模型,通过商品文案自动化生成技术,可以帮助商铺的店家以又快又省的方式进行商品宣传。
商品文案自动写作属于自然语言处理领域中textsummarization或者naturallanguagegeneration的问题。
目前有以下几种文案生成模型的方法,如Template-basedgeneration、Deepneuralnetwork-basedgeneration、Knowledge-basedincorporate、Pattern-controlled等。
以上这几种方式主要针对长文本文案生成,目前还没有针对卖点短文案的生成技术。
接下来通过介绍推荐卖点在推荐系统中的架构设计来介绍卖点如何与推荐系统结合发挥作用。
首先是当请求被初始化时,混合模块(SOA)会触发前端(Broadway)收集用户信息、商品信息等数据;基于收集到的客户资料,Index模块作为Broadway和后端推荐的中转站,将信息提供给推荐模块;AI-flow是推荐模块,执行召回和排序,以获取推荐候选产品,根据产品的库存和受欢迎程度进行筛选,最后确定要推荐的产品同时将请求发送给卖点模块,进行卖点的提取和个性化分发。
整个智能卖点创作模块分为两个部分:
卖点短文案的提取和生成,主要包括卖点粗筛、卖点生成、卖点精筛这三个步骤。
①卖点粗筛
②卖点生成
由于粗筛中选出的文案素材口语化、不简练,因此我们接下来依据Transformer和Pointergenerator的文本生成模型基于已经筛选出的文案素材库进行卖点文案生成。
Transformer是用于学习输入文本的表征向量,它的重要组成部分包括自注意力机制(multi-headself-attention)和位置编码(positionalembedding)。自注意力机制本质上会对句子中的每个字构建全连接的图,通过计算attention学习每个字的表征向量,考虑到句子中所有的字对该字的影响。位置表征中,每一个位置点都有一个编码,是一个周期函数。
将上一步获取到表征进行Decoder生成卖点文案。Pointergenerator与其他的语言生产模型的区别在于,其不仅可以从词库挑选要学习到的字,还可以从输入的句子中挑选字。首先分别计算从词库中选择字和从输入中选择字的概率,然后再将词库中的概率分布和输入中的概率分布结合获得最终的概率分布。
③卖点精筛
卖点精筛模型区别于粗筛模型,将生成后的卖点文案,输入到一种递归锐化的BERT模型中进行训练。具体来说,首先将达人卖点写作当做正样本,素材库文案/初始模型生成文案当做负样本,输入到Bert初始分类模型中进行训练;然后将前一步生成的排名靠前的高质量文案作为负样本,达人卖点文案作为正样本,再次输入到Bert模型中做优化训练,循环多次获得最终的高质量卖点文案。
接下来,我们介绍基于用户画像的个性化分发。每一个产品有不同的特色点,可以产生多个高质量的卖点,我们希望根据客户的兴趣点为其分配最有吸引力的卖点,以引导用户购买该商品。个性化分发分为两个步骤,首先生成卖点文案的表征向量和用户兴趣的表征向量,然后匹配卖点表征向量和用户表征向量,从而实现卖点个性化分发。
用户兴趣嵌入表征:通过work2vector方式获得产品词里每个字的wordembedding,将产品词中每个字的表征向量求和获取该产品词的表征,结合用户对每个产品词的喜好权重,然后对所有的产品词进行加权平均,获取用户对产品词的喜好的表征向量。
卖点文案的特征向量:通过work2vector方式获得卖点文案里每个字的wordembedding,然后对卖点文案中每个字的表征向量求和得到卖点文案特征向量。
个性化分发:通过计算用户兴趣表征向量和卖点文案表征向量的相似度来实现。可用的向量相似度计算的主要方法有余弦相似度、皮尔森系数、欧式距离和基于Kernel的相似度计算等。
对于离线优化模块,我们发现经过业务反馈过滤出的低质量卖点和高品质卖点可以使模型对高质量卖点文案选择更加敏感,起到优化模型的作用。在实践过程中,我们将相对提升指标大于30%并且基础点击PV>5%的短文案作为高质量正样本,剩余文案作为负样本,然后输入到BERT模型中进行finetune,重新打分排序获取高质量文案;同时我们将基础点击PV大于对比点击PV或者对比点击PV小于某个阈值的短文案作为低品质负样本,剩余文案作为正样本,然后输入到BERT模型中进行finetune,从而打分排序同时过滤低评分的卖点文案。
当目前为止,我们已经完成了亿级别的卖点挖掘和生产,覆盖了上亿的SKU,62个品类(包括家电、运动、生鲜、处方药等);同时,生成的卖点是多样化的,包括商品特色类、特色服务类、名人同款类、用户行为类、用户评价类、特色人群类,旨在能够挖掘商品特点以助力体验提升或者引入用户数据激发从众行为;另一方面,从销售指标上看,卖点技术可以有效帮助提升商品点击率(+2%)和停留时长(0.32%+),日常效果正向促进活动页赋能;基于LBS信息建设特色人群卖点(消费升级或者同城偏好),效果正向,目前在赋能极速版助力下沉市场用户运营。此外,推荐卖点也广泛地赋能于主站、京喜、极速版、通天塔活动页等多个应用场景。