为什么要用深度学习来做个性化推荐 CTR 预估

作者: 苏博览 2017-09-29 14:56:28

深度学习应该这一两年计算机圈子里最热的一个词了。基于深度学习,工程师们在图像,语音,NLP等领域都取得了令人振奋的进展。而深度学习本身也在不断的探索和发展中,其潜力的极限目前还没有被看到。

当然,深度学习也不是万能的,比如有很多问题的特征是易于提取的,我们可以直接使用SVM, 决策树的算法来取得很好的结果。而深度学习并不能提供太多的帮助。还有一些问题,我们并没有足够数量的数据,我们也很难通过深度学习算法来得到可用的模型。此外,有些问题对计算资源和时间的要求比较严苛,在深度学习小型化没有取得突破性进展的时候,它们也不是首选方法。

判断一个项目适不适合上深度学习的正确姿势

( 图片来源 : 深度学习防骗指南 )

反过来说,虽然目前深度学习在个性化推荐,计算广告领域上还没有很大的突破,但是我认为推荐系统有很大概率会是深度学习的最重要的应用场景之一。理由有以下几个方面:

现在的推荐系统都要面对海量的数据,要提取上万乃至上亿维的特征。而深度学习本身就是一个很好的表示学习的框架,从海量的数据中学习到人类无法提取的特征组合,是其擅长的事情。

( 图片来源 : 深度学习防骗指南 )

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。现有的推荐系统依赖于特征工程的效果。而特征工程建立在不断的深入理解问题和获取额外的数据源上。然而根据数据人能抽象出来的特征总类很有限,新数据源和新特征的获得会越来越难。随着人工特征工程的深入,投入的人力和时间越来越长,得到的新特征对系统的提升却越来越少。这个时候,使用深度学习来做特征表达,在成本上也许是一个更好的选择。

图:IBM Watson系统的精度提升曲线。可以看到一开始的时候结果提升的特别快,后面一点点的提升都要付出很大的努力,

因此我们基于Tensorflow在某个业务上做了DNN的尝试,跑通了整个流程,积累了一些经验。也比原有LR的模型在线上有了20%多的提升。希望这些代码也可以帮助各位同学快速的在自己的业务上实现一套深度模型的框架。

图: DNN在CTR预估的一般框架

一般来说,我们可以先选择一个比较简单的框架来跑通整个流程,然后再慢慢增加模型的复杂度。通常我们可以选用下图的框架,把我们用到的数据分为两类:连续的,和离散的特征。

对于连续的特征,需要做一些归一化;对于离散的特征,则一般要做一个Embedding,把一个离散的特征转成一个N维的向量。这个向量的长度一般来说是和该向量的取值空间成正比的。这个embedding的过程可以用FM来实现。 在我们的代码里,是通过Tensorflow自动embedding_column实现的。

所以把用户数据和推荐的物品数据放一起分成两类,然后把embedded之后的离散特征 和 连续特征组合在一起,作为神经网络的输入,输出就是[0,1] 是否点击。这里面我们就直接调用tensorflow的DNNClassifier。这个网络可以设计层数,每层的大小,dropout, 激活函数,学习率等等。

  1. opt = tf.train.AdamOptimizer(learning_rate=0.01, 
  2.                                    beta1=0.9, 
  3.                                    beta2=0.999)            # default 0.001 0.9 0.999  
  4.  
  5.  
  6.        m = tf.contrib.learn.DNNClassifier(model_dir=model_dir, 
  7.                                           feature_columns=deep_columns, 
  8.                                           hidden_units=[1024, 512, 256], 
  9.                                           optimizer = opt, 
  10.                                           activation_fn=tf.nn.relu,        # default 
  11.                                           dropout=0.05 ) 

所以后面就是一个不断调参的过程,当然这个调参也是有一些技巧。网上有很多,在这里就不一一来说了。

深度学习调参师

( 图片来源 : 深度学习防骗指南 )

总的来说,深度学习没有那么神秘,它是一个很有效的工具。在个性化推荐上应该已经有很多团队进行了很多尝试。在这里,我们给出了一个简单和有效的基于Tensorflow的实现方式,也希望可以帮助一些想要尝试深度学习的一些团队。

 原文链接:https://cloud.tencent.com/community/article/603674

作者:苏博览

【本文是51CTO专栏作者“腾讯云技术社区”的原创稿件,转载请通过51CTO联系原作者获取授权】

戳这里,看该作者更多好文

深度学习 CTR 预估
上一篇:[ I am Jarvis ] :聊聊 FaceID 背后的深度学习视觉算法 下一篇:如何一步一步提高图像分类准确率?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

图灵奖得主Yoshua Bengio:深度学习当务之急,是理解因果关系

深度学习擅长在大量数据中发现模式,但无法解释它们之间的联系,而图灵奖获得者Yoshua Bengio想要改变这一点。

佚名 ·  1天前
18个挑战项目带你快速入门深度学习

AlphaGo 大战李世?h之后,深度学习技术便在国内变得异常火。吸引了大批的技术人员争相学习,那么到底如何才能更快速的入门深度学习呢?下面给大家介绍的 18 个挑战项目,通过实践动手带你快速入门深度学习!

实验楼 ·  2019-10-10 14:48:19
盘点 | 8个你可能不知道的深度学习应用案例

深度学习与传统机器学习系统的不同之处在于,它能够在分析大型数据集时进行自我学习和改进,因此能应用在许多不同的领域。

天极网 ·  2019-10-10 14:15:18
2019年较热门的5大深度学习课程

今天,我们将和大家盘点一下,当下较流行的深度学习资源/课程,可以帮助你们提升深度学习技能。

猿哥 ·  2019-09-26 05:16:24
DeepMind一次性开源3个新框架!深度强化学习应用落地即将迎来春天?

深度强化学习(Deep Reinforcement Learning,DRL)一直是近年来人工智能的一些重大突破的核心。然而,尽管 DRL 有了很大的进步,但由于缺乏工具和库,DRL 方法在主流解决方案中仍然难以应用。

杨鲤萍 ·  2019-09-20 09:38:18
一步一步带你完成深度学习与对象检测之人脸识别

要进行人脸识别,就要搜集用户的人脸图片,我们从网站上搜集了几个明星的照片来进行本期文章的分享。此部分文章是人脸识别的第一部分,人脸数据的搜集与提取,后期我们分享人脸识别系统的神经网络训练与人脸识别。

人工智能研究所 ·  2019-09-18 07:20:34
看懂这十步,8岁的小朋友都能理解深度学习

如果对当今人工智能的主流技术——深度学习没有了解,可能真的会有人觉得,当前的科学家们在创造无所不能、无所不知的电影AI形象。那么,如何用最浅显的方式,给大众解释什么是深度学习呢?快来看看吧!

佚名 ·  2019-09-17 16:56:39
PyTorch版《动手学深度学习》开源了,最美DL书遇上超赞DL框架

李沐等人的开源中文书《动手学深度学习》现在有 PyTorch 版实现了。不论是原书中的示例代码,还是实战项目,原来的 MXNet 都可以无缝转化到 PyTorch 代码。

ShusenTang ·  2019-09-17 10:23:45
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载