主搜索与店铺内搜索联合优化的初步探索与尝试

作者: 阿里巴巴授权发布 2018-01-23 10:29:50

背景与简介

在淘宝平台上有非常多的子场景,例如搜索、推荐、广告。每个子场景又有非常多细分,例如搜索包括默认排序、店铺内搜索、店铺搜索等;推荐内有猜你喜欢、今日推荐、每日好店等。基于数据驱动的机器学习和优化技术目前大量的应用于这些场景中,并已经取得了不错的效果——在单场景内的A/B测试上,点击率、转化率、成交额、单价都能看到显著提升。 然而,目前各个场景之间是完全独立优化的,这样会带来几点比较严重的问题:

  a. 用户在淘宝上购物会经常在多个场景之间切换,例如:从主搜索到猜你喜欢,从猜你喜欢到店铺内。不同场景的商品排序仅考虑自身,会导致用户的购物体验是不连贯或者雷同的。例如:从冰箱的详情页进入店铺,却展示手机;各个场景都展现趋同,都包含太多的U2I(点击或成交过的商品)。

  b. 多场景之间是博弈(竞争)关系,期望每个场景的提升带来整体提升这一点是无法保证的。很有可能一个场景的提升会导致其他场景的下降,更可怕的是某个场景带来的提升甚至小于其他场景更大的下降。这并非是不可能的,那么这种情况下,单场景的A/B测试就显得没那么有意义,单场景的优化也会存在明显的问题。因为这一点尤为重要,因此我们举一个更简单易懂的例子,如下图。

一个1000米长的沙滩上有2个饮料摊A和B,沙滩上均分分布者很多游客,他们一般会找更近的饮料摊去买饮料。最开始A和B分别在沙滩250米和750米的位置,此时沙滩左边的人会去A买,右边的人去B买。然后A发现,自己往右边移动的时候,会有更多的用户(A/B测试的结论),因此A会右移,同样B会左移。A和B各自‘优化’下去,***会都在沙滩中间的位置,从博弈论的角度,到了一个均衡点。然而,***‘优化’得到的位置是不如初始位置的,因为会有很多游客会因为太远而放弃买饮料。这种情况下,2个饮料摊各自优化的结果反而是不如不优化的。

多场景问题实际并不止存在于淘宝上,目前比较大型的平台或者无线APP都不止一个场景。即使不谈Yahoo,Sina等综合性网站,像Baidu、Google等功能比较单一、集中的应用,也会有若干场景(如网页、咨询、地图等)。那么这些平台或应用都会面临类似的问题。 综上,研究大型在线平台上的多子场景联合优化,无论从淘宝平台的应用上,还是从科研的角度,都具有重要意义。

为了解决上述的问题,本文提出一个多场景联合排序算法,旨在提升整体指标。我们将多场景的排序问题看成一个完全合作的、部分可观测的多智能体序列决策问题,利用Multi-Agent Reinforcement Learning的方法来尝试着对问题进行建模。

该模型以各个场景为Agent,让各个场景不同的排序策略共享同一个目标,同时在一个场景的排序结果会考虑该用户在其他场景的行为和反馈。这样使得各个场景的排序策略由独立转变为合作与共赢。由于我们想要使用用户在所有场景的行为,而DRQN中的RNN网络可以记住历史信息,同时利用DPG对连续状态与连续动作空间进行探索,因此我们算法取名MA-RDPG(Multi-Agent Recurrent Deterministic Policy Gradient)。

系统总览

传统的单场景优化

目前,单场景排序策略的大体结构如下,每个商品用一组特征来表示<人气分,ctr分……>,排序策略通过给出一组特征权重来决定排序的结果,商品的分数即为各个特征的加权相加。主搜索和店铺内搜索都有自己的排序策略,独立优化,互不影响。

多场景联合优化

目前,单场景排序策略的大体结构如下,每个商品用一组特征来表示<人气分,ctr分……>,排序策略通过给出一组特征权重来决定排序的结果,商品的分数即为各个特征的加权相加。主搜索和店铺内搜索都有自己的排序策略,独立优化,互不影响。

具体的方法与应用请点击查看

主搜索 店铺 搜索
上一篇:50行Python代码实现人脸检测 下一篇:教育部:AI、算法、开源硬件等进入全国高中新课标
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

90后技术宅与他的非主流另类搜索引擎Magi

最近,一个名叫 Magi 的搜索引擎成了重点关注对象,据称这个搜索引擎和我们常见的搜索引擎很不一样,有一种程序员们钟爱的 X 冷淡风格。

佚名 ·  2019-11-21 09:29:10
厨师与AI完美搭配,一起刺激你的味蕾

最近,索尼人工智能团队和韩国高丽大学联合开发了一种名为FlavorGraph的人工智能映射工具,该工具可以推荐互补的配料,帮助厨师们烹饪菜肴。

科技行者 ·  1天前
违规企业可面临营业额6%罚款 欧盟欲加强对人工智能技术监管

据外媒报道,欧盟委员会近日修订文件显示,如有企业违反欧盟规则使用被禁止的人工智能应用,可能会面临最多相当于其全球营业额6%的罚款,这一数字高于此前提议的4%。

贾桂鹏 ·  1天前
外卖小哥要失业了?美团募资650亿打造无人配送

从疫情开始之后,美团就已经在无人配送方面发力,根据美团的数据显示,目前美团的无人车配送服务已经覆盖了20多个小区,累计配送3.5万订单,自动驾驶里程近30万公里!

首席财经观察 ·  1天前
未来网络领域发生混合威胁的三大趋势

4月7日,欧洲反混合威胁卓越中心发布报告《未来的网络空间与混合威胁》,指出网络空间是发生混合威胁的领域之一,是网络行动和网络信息行动的促成者。

张明月 张岸佳 ·  1天前
MIT小哥联合谷歌训练7个多任务机器人,9600个任务成功率高达89%!

Google研究团队率先研发出了处理大规模任务的新型机器人,这些机器人竟然具有「学习世界」的能力。

新智元 ·  1天前
有了这支矢量神经风格画笔,无需GAN也可生成精美绘画

一种新的神经风格画笔能够生成矢量形式的绘画作品,在统一框架下支持油画、马克笔、水彩画等多种笔触,并可进一步风格化。

机器之心 ·  1天前
5G只比4G多1G?人工智能不答应

4月4日,论文共同作者之一、美国艺术与科学院院士、清华大学智能产业研究院院长张亚勤在接受科技日报记者采访时表示,通信行业正在走向5G,马上要走向6G,光是看视频快点、多发送点图片,那不是5G。什么才是真正的5G?为什么要在5G网络里“注入”人工智能?

科技日报 ·  1天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载