盘点金融领域里常用的深度学习模型

作者: Sonam Srivastava 2017-11-02 14:24:08

盘点金融领域里常用的深度学习模型

在今天我们发布的这篇文章中,作者 Sonam Srivastava 介绍了金融中的三种深度学习用例及这些模型优劣的证据。

我们跟随 Sonam Srivastava 的分析,并展望深度学习在金融领域的运用前景。虽然金融是计算密集型最多的领域,但广泛使用的金融模型:监督和无监督模型、基于状态的模型、计量经济学模型甚至随机模型都受到过度拟合和启发式问题带来的影响,抽样结果很差。因为金融生态圈异常复杂,其非线性充斥着大量的相互影响的因素。

要解决这个问题,如果我们考虑到深度学习在图像识别、语音识别或情感分析方面所做的研究,我们就会看到这些模型能够从大规模未标记数据中学习,形成非线性关系的递归结构,可以轻松予以调整以避免发生过度拟合。

如果金融生态圈能够使用这些网络进行建模,应用领域就会深远而广泛。这些模型可用于定价、投资组合构建、风险管理甚至高频交易等领域,让我们来解决这些问题。

收益预测

以预测每日黄金价格的抽样问题为例,我们首先看看传统的方法。

ARIMA 模型

ARIMA 模型(Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),时间序列预测分析方法之一。ARIMA(p,d,q)中,AR 是“自回归”,p 为自回归项数;MA 为“滑动平均”,q 为滑动平均项数,d 为使之成为平稳序列所做的差分次数(阶数)。“差分”一词虽未出现在 ARIMA 的英文名称中,却是关键步骤。

ARIMA 模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。现代统计方法、计量经济模型在某种程度上已经能够帮助企业对未来进行预测。利用整合移动平均自回归模型,来尝试预测季节性平稳时间序列,我们得到结果如下图所示:

VAR 模型

VAR 模型,(Vector Autoregression model)向量自回归模型,是一种常用的计量经济模型,由计量经济学家和宏观经济学家 Christopher Sims 提出。它扩充了只能使用一个变量的自回归模型(简称:AR 模型),使容纳大于 1 个变量,因此经常用在多变量时间序列模型的分析上。

如果我们将相关的预测变量添加到我们的自回归模型中并移动到向量自回归模型,我们得到结果如下图所示:

深度回归模型

如果在数据上使用简单的深度回归模型,使用相同的输入,会得到更好的结果,如下图所示:

卷积神经网络

卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。

卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。

修改我的架构,使用卷积神经网络来解决同一个问题,得到结果如下图所示:

所得结果大为改善。但***的结果还在后头。

长短期记忆网络

长短期记忆网络(Long Short-Term Memory, LSTM)是一种时间递归神经网络 (RNN),论文***发表于 1997 年。由于独特的设计结构,LSTM 适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

LSTM 的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好,比如用在不分段连续手写识别上。2009 年,用 LSTM 构建的人工神经网络模型赢得过 ICDAR 手写识别比赛冠军。LSTM 还普遍用于自主语音识别,2013 年运用 TIMIT 自然演讲数据库达成 17.7% 错误率的纪录。作为非线性模型,LSTM 可作为复杂的非线性单元用于构造更大型深度神经网络。

使用循环神经网络(RNN)的变种后,我得到结果如下所示:

因此,整体来说均方误差的趋势出乎意料。

投资组合构建

我们尝试使用深度学习解决的第二个金融问题是投资组合构建。在这个问题上,深度学习的实际应用效果很好。我的研究灵感来自这篇论文:《深度投资组合》(https://0x9.me/8uOBt)

这篇论文的作者尝试构建自动编码器,将时间序列映射到自身。使用这些自动编码器的预测误差成为股票测试版(与市场相关)的代用指标,自动编码器用作市场的模型。

自动编码器(auto-encoder),是一种无监督的学习算法,主要用于数据的降维或者特征的抽取,在深度学习中,自动编码器可用于在训练阶段开始前,确定权重矩阵 W 的初始值。基于上述自动编码器的误差选择不同的股票,我们可以使用另一个深度神经网络来构建深度指标,结果相当不错,如下图所示:

深度神经网络已成为利用股票复制指数的指数构建方法。

但这只是它的开始!如果我们应用智能索引,在我去掉指数的极端下降期,并在智能索引上训练我的指数映射深度神经网络时,我就能以惊人的速度超过指数!

这种技术在证券投资组合领域有着巨大的潜力!

结论

目前金融业的趋势是朝更复杂、更健全的的模式发展。随着大量数据科学家涌入该行业,对所有银行来说,技术是一个巨大的压力。像 RelTec、Worldquant 这样的对冲基金,在其交易中已经使用这种技术。由于这些复杂模型在其他领域所表现出的优异结果,以及在金融建模领域的巨大差距,将会有一系列的戏剧性的创新涌现!

更好地解决金融和贸易领域的关键问题,将会提高效率、提高透明度、加强风险管理和新的创新。

深度学习 模型 金融领域
上一篇:那些深度学习《面试》你可能需要知道的 下一篇:如有有一天,你的小孩问:「爸爸,什么是机器学习呀?」
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

如何解决机器学习树集成模型的解释性问题

前些天在同行交流群里,有个话题一直在群里热烈地讨论,那就是 如何解释机器学习模型 ,因为在风控领域,一个模型如果不能得到很好的解释一般都不会被通过的,在银行里会特别的常见,所以大多数同行都是会用 LR 来建模。

SAMshare ·  21h前
百度CTO王海峰CNCC2019演讲:深度学习平台支撑产业智能化

百度CTO王海峰在会上发表题为《深度学习平台支撑产业智能化》的演讲,分享了百度关于深度学习技术推动人工智能发展及产业化应用的思考,并深度解读百度飞桨深度学习平台的优势,以及与百度智能云结合助力产业智能化的成果。

佚名 ·  3天前
深度学习/计算机视觉常见的8个错误总结及避坑指南

人类并不是完美的,我们经常在编写软件的时候犯错误。有时这些错误很容易找到:你的代码根本不工作,你的应用程序会崩溃。但有些 bug 是隐藏的,很难发现,这使它们更加危险。

skura ·  2019-10-17 09:58:01
2019年深度学习自然语言处理十大发展趋势 精选

自然语言处理在深度学习浪潮下取得了巨大的发展,FloydHub 博客上Cathal Horan介绍了自然语言处理的10大发展趋势,是了解NLP发展的非常好的文章。

HU数据派 ·  2019-10-16 14:10:24
图灵奖得主Yoshua Bengio:深度学习当务之急,是理解因果关系

深度学习擅长在大量数据中发现模式,但无法解释它们之间的联系,而图灵奖获得者Yoshua Bengio想要改变这一点。

佚名 ·  2019-10-15 05:15:00
机器学习转化为生产力,警惕这4个常见陷阱!

几乎每个人都想在他们的业务中引入机器学习,但是这些人也遇到了一个大问题:让模型可持续发展十分困难,尤其是在云架构的基础上。medium上一位博主也指出了这个问题,并提出了将机器学习模型投入生产的4个常见陷阱。

大数据文摘 ·  2019-10-13 16:53:51
18个挑战项目带你快速入门深度学习

AlphaGo 大战李世?h之后,深度学习技术便在国内变得异常火。吸引了大批的技术人员争相学习,那么到底如何才能更快速的入门深度学习呢?下面给大家介绍的 18 个挑战项目,通过实践动手带你快速入门深度学习!

实验楼 ·  2019-10-10 14:48:19
盘点 | 8个你可能不知道的深度学习应用案例

深度学习与传统机器学习系统的不同之处在于,它能够在分析大型数据集时进行自我学习和改进,因此能应用在许多不同的领域。

天极网 ·  2019-10-10 14:15:18
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载