如何利用DeepFM算法设计推荐系统

编译作者: 汪昊 2018-08-08 13:30:59

如何利用DeepFM算法设计推荐系统

【51CTO.com快译】经过了十几年的发展,推荐系统在互联网行业已经变得越来越流行。从早年没有一个合适的产品形态,到如今在今日头条和抖音等商业产品中发挥重要作用,推荐系统已经越来越受到互联网公司和研究界学者的重视。

早年的推荐算法主要是各种单模型,例如逻辑回归、协同过滤、矩阵分解等等。后来推荐算法演化成了混合模型,例如 GBDT + LR , GBDT + FM 等。而随着深度学习的崛起,深度神经网络越来越深刻地影响了推荐系统领域的发展。

Huifeng Guo 等中国国内学者在 IJCAI 2017 发表了一篇题为《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 》的论文,讲解了如何将 FM 和深度学习模型进行融合之后进行推荐的算法。

DeepFM 主要有以下三个优点:

  1. DeepFM 可以对低阶特征交互和高阶特征交互进行建模,不需要进行特征工程。
  2. DeepFM 可以高效的进行训练,因为模型宽的部分和深的部分,不仅共享输入,也共享嵌入式向量。
  3. 实验数据表明 DeepFM 可以在点击率预估问题上取得优秀的效果。

DeepFM 的输入数据为点击率预估常见的 (X, y) 元组,其中 X 是表示用户和物品的特征向量,可能包括非数值数据,y 是点击数据标签,y = 1 表示用户点击了物品,y = 0 表示用户没有点击物品。

DeepFM 的预测函数如下: , 其实是利用 sigmoid 函数对基于 FM 的预测和基于 DNN 的预测进行了融合。算法模型中的 FM 部分算法架构如下图所示:

DNN 部分的算法架构如下图所示:

在混合模型中,FM 和 DNN 共享同一个特征嵌入层。嵌入层的结构如下图所示:

嵌入层得到的向量记为: ,  该向量参与到后续的DNN计算中: ,以及  。

作者随后在测试数据集合上对近年来的几种不同的点击率预估算法进行了测评,选择的测评标准包括 AUC 和 Log-loss ,测评结果如下图所示:

与 DeepFM 相比,其他几种点击率预估算法有以下缺点:

  1. FNN : FNN 是一个由 FM 初始化的前向神经网络。FM 预训练策略有如下两个问题:1). 嵌入层参数受 FM 影响较大 2). FM 预训练对算法效率有影响。另外,FM 只包含了高阶特征组合。
  2. PNN : PNN 及其变种 IPNN 和 OPNN 忽略了低阶特征的组合。
  3. 宽深网络:宽身网络的 FM 部分需要人工处理特征工程。

DeepFM 设计思路简单,源于 2016 年 Google 的宽深网络方法但是效果出众。自推荐系统诞生以来,人们便设计了各种不同的模型融合方法。从修改主题模型的 Collaborative Topic Regression ,到基于 blending 的 GBDT + LR 再到后面的宽深网络方法, 给我们设计算法提供了不同的思路。算法本身是一个既要考虑模型,又要考虑数据和参数的学科,DeepFM 在如何设计模型层面给我们展示了很好的范例。

原文标题:DeepFM: A Factorization-Machine based Neural Network for CTR Prediction,作者:Huifeng Guo, Ruiming Tang, Yunming Ye, Zhenguo Li, Xiuqiang He 

汪昊,恒昌利通资深架构师,美国犹他大学硕士,在百度,新浪,网易,豆瓣等公司有多年的研发和技术管理经验,擅长机器学习,大数据,推荐系统,社交网络分析,计算机图形学,可视化等技术。在 TVCG 和 ASONAM 等国际会议和期刊发表论文 8 篇。本科毕业论文获国际会议 IEEE SMI 2008 ***论文奖。

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

推荐系统 DeepFM 算法
上一篇:人能识别“假笑”,那么机器人呢? 下一篇:如何使用Android Things和TensorFlow在物联网上应用机器学习
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

中国人开始反算法:不登录、不点赞、不关注、不评论

“算法不讲武德!”越来越多年轻人发觉,生活正在被算法控制。

深燃团队 ·  2021-05-31 09:03:12
8个深度学习中常用的激活函数

当在隐藏层和输出层中实现时,激活函数的选择非常关键。模型的准确性和损失很大程度上依赖于激活函数。此外,必须根据您对模型的期望来选择它们。例如,在二值分类问题中,sigmoid函数是一种最优选择。

deephub ·  2021-05-22 23:08:08
连肌肉颤动都清晰可见!3D人体模型自动生成算法,一作北大图灵班

团队开发了一套神经网络,用来生成具有指定结构的骨骼,并且精准绑定骨骼的蒙皮权重。

子豪 ·  2021-05-17 09:10:25
完善算法技术 规范算法应用(数字时代的文化生活)

算法是人工智能技术与大数据技术的关联节点。在移动互联网上,社交媒介、定位技术、搜索引擎等给用户日常生活提供极大便利的同时,也实时生成和储存着大量相关数据。

佚名 ·  2021-05-14 08:30:53
你的「在看」有人看,清华研究者从微信「看一看」发现了这些规律

该研究还提出了一个预测模型,预测准确率相比其他方法有所提升。目前,该论文已发表在《IEEE Transactions on Knowledge and Data Engineering》(TKDE) 期刊上。

佚名 ·  2021-05-07 09:03:27
2021年进入AI和ML领域之前需要了解的10件事

自从2012年数据科学被评为21世纪最性感的工作以来,来自不同领域的许多人开始转向数据科学或相关的机器学习角色

deephub ·  2021-04-30 23:43:04
机器学习新算法更好描述量子系统模型

近日,英国布里斯托大学量子工程技术实验室的研究人员在《自然·物理学》杂志上发表一篇新论文,解释了一种通过充当自主代理,使用机器学习对哈密顿模型进行逆向工程的算法。这种新算法对量子系统基本物理原理提供了宝贵见解,有望带来量子计算和传感领域的重大进步,并有可能翻开科学研究的新篇章。

张佳欣 ·  2021-04-30 15:12:07
走出“题海战术”,让模型学会像人一样思考

当你在社交媒体上发表内容时,在打出#时,社交媒体会推荐给你一个合适的Hashtag (话题词) ,把内容划分到相应的话题下面去,方便对社交媒体的内容进行分类管理。

天筭 ·  2021-04-23 15:13:16
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载