机器学习在金融领域的四大优势和五大应用

作者: 佚名 2017-07-31 10:31:13

机器学习

没有人的生活可以脱离金融而独立存在,虽然随着科技的发展,人们变得越来越聪明,但金融是生活的基本必需品,因为每个人都需要钱来吃饭、旅行和买东西。目前已经形成了一个人与机器协同合作的金融市场,而人们正发明越来越多的方法来拖欠贷款、从其它账户偷钱、制造虚假信用评级等。今天,从审批贷款到资产管理,再到风险评估,机器学习在金融生态系统的许多阶段都起着不可或缺的作用。然而,只有少数懂技术的专业人士真正明白机器学习是如何在人们的日常财务生活中发挥作用的。

机器学习是什么?

机器学习是设计与应用算法的科学,构建算法可从数据中进行学习和预测。机器学习的应用在今天已很普遍,你可能每天不知不觉中使用了几十次。机器学习也提供了大量的用例,比如自动驾驶汽车、产品推荐引擎、预测分析、语音识别等等。数据科学家使用机器学习的主要目的是减少人类工作量,将人类在阅读、理解、分析大数据上的时间花费减少到几秒钟。

实施机器学习最常用的两种方法是监督学习和无监督学习。监督学习算法使用带标签的例子进行训练,输入数据对应的输出结果是预先可知的。而在无监督学习中,学习算法没有任何标签可使用,只能自己发现输入数据中的结构。

金融业中的机器学习特色?

与机器相比,大脑容量对思维有一定的限制作用。人类最多只能同时集中处理 3-4 件事情,而机器的处理能力是人类的几千倍。除了速度,在金融领域的其他方面,机器也将比人类表现得更好。

可靠性:在处理财务问题时,建立个体信用评级系统是十分必要的。银行、投资公司、股票市场每天都要进行多达数十亿美元的交易。因此,我们必须信任处理此事的公司或个人。由于人性中可能存在的偏见和自私,有些人往往会在金钱交易过程中进行诈骗。为了解决这类问题,嵌入了机器学习的机器在处理请求时可以做到零腐败。

速度:我们都知道在股票市场进行股票交易非常困难。人们通常在历史数据、图表和公式中进行大量的分析,以预测股票的未来,还有些人仅仅是随机下注。所有这些行为听起来都十分忙乱且耗时。机器学习算法能够对成千上万个数据集进行精确的深入分析,并可以在短时间内给出简洁准确的预测,有助于减轻人们在大数据整理和分析方面的麻烦。

安全:此前,勒索软件 WannaCry 攻击了世界各地的计算机,这表明,我们仍然易受黑客和网络安全方面的威胁。机器学习则通过将数据分为三个以上的类别,建立模型,以此预测欺诈或异常情况。而手工审查成本高、耗时长、误报率高,并不适用于金融业。

精度:人们没有能力或不喜欢做重复单调的任务,这种重复劳动往往会产生许多错误,而机器可以在无限时地执行重复任务。机器学习算法会做数据分析的苦活,并在人类需要的情况下推荐新策略,还能够比人类更有效地检测到微妙的或非直觉的模式,从而识别出欺诈交易。此外,无监督机器学习模型可以不间断地分析和处理新数据,然后自动更新自身模型以反映最新趋势。

如何在信用评分中应用机器学习?

即使银行极度谨慎并认真核实公司信誉,但跨国公司拖欠银行债务,在金融领域似乎依然是一个普遍的现象。一些金融机构利用评分模型来降低信贷评估、发放和监督中的信贷风险。基于经典统计理论的信用评分模型得到了广泛应用。然而,当涉及到大量的数据输入时,这些模型的弹性表现较差。因此,经典统计分析中的一些假设就不能成立,这反过来又影响了预测的准确性。

根据客户的国籍、职业、薪酬、经验、行业、信用记录等信息来确定客户的信用风险评分,甚至是在向客户提供任何服务之前就进行此类评定,这对银行来说至关重要,这是银行在提供信贷或其它金融产品之前一个重要的关键绩效指标(KPI)。

引入一个可以立即为客户服务的中央集成的金融风险机制是目前面临的主要挑战。即使是现在,由于无法预测客户的风险评分,银行也无法立即通过贷款审批。机器学习则可以加快放贷过程,且能避免耗时而必要的尽调程序。回归算法可以确定客户的信用评分,这些算法使用统计过程来估计变量之间的关系,在预测和预报方面得到了广泛的应用,在机器学习领域的应用也得到了迅速的发展。这种方法的第一步是定义客户历史信用记录的可用性,然后选择目标人群,并确定基准来界定满意/不满意的表现。这部分将作为回归算法启动操作的基本数据集。下一步则是选择样本,选择标准如下:

1. 确定公司系统中的可用变量

2. 定义利息期和样本大小

3. 验证数据的一致性和完整性

所选的可能的零散信息也被称为人口统计学变量:性别、年龄、职业、公司、教育、婚姻状况等,一般推荐登记时长为 12-18 个月的客户样本。这段时间足以检查延迟付款和违约的情况,且能巩固优质客户的支付行为模型。

通过变量选择、变量属性分组以及创建虚拟变量,则可以进行初步分析。使用列联表来计算与独立变量级别相关的相对风险(RR)指数,最后计算各个单一变量级别的优质客户与劣质客户之比。比例越大,该变量对未来业绩的预测作用就越大。而RR 通常介于 0 到 2 之间,0 代表极劣,2 代表极优。但是,分析过程不会使用类别为中性(Neutral)的样本,因为其优/劣程度相差不大。

模型的建立包括对多元统计技术的选择。之后确定要使用的软件、选择独立变量并检验技术假设,一旦数据减少到聚类级别,则可以使用判别分析、逻辑回归和神经网络,判别分析和逻辑回归则采用不同方法的统计技术。除此之外,还要对所选软件进行有关实施与易用性分析的检查。

最后,为了评估性能好坏,需要找出两个样本的 KS 检验。需要找出两个集群之间的差异,比如由各自的预测结果所界定的优/劣付款人,确定每个预测中的优/劣付款人分布之间的差异,而 KS 测试的值是该模块中差异最大的一个。由于从模型得到的最终结果通常介于 0-1,当结果小于 0.5 时,客户会被定义为劣质付款人;反之则为优良付款人。

机器学习的其它优点

欺诈检测:使用机器学习进行欺诈检测时,先收集历史数据并将数据分割成三个不同的部分,然后用训练集对机器学习模型进行训练,以预测欺诈概率。最后建立模型,预测数据集中的欺诈或异常情况。与传统检测相比,这种欺诈检测方法所用的时间更少。由于目前机器学习的应用量还很小,仍然处于成长期,所以它会在几年内进一步发展,从而检测出复杂的欺诈行为。

股票市场预测:买卖股票而成为亿万富翁是常有的事,但是,如果不了解股票运作方式和当前趋势,要想击败市场则非常困难。随着机器学习的使用,股票预测变得相当简单。这些机器学习算法会利用公司的历史数据,如资产负债表、损益表等,对它们进行分析,并找出关系到公司未来发展的有意义的迹象。此外,该算法还可以搜索有关该公司的新闻,并通过世界各地的消息源来了解市场对公司的看法。此外,通过自然语言处理技术,它可以通过浏览新闻频道和社交媒体的视频库来搜索更多有关该公司的数据。这项技术还在发展中,虽然目前还不够准确,但可以肯定的是,在不久的将来,它将能够作出非常准确的股市预测。

财资部(Treasury)– 客户关系管理(CRM),现货交易(Spot Transactions):客户关系管理(CRM)在小额银行业务中占有十分突出的地位,但在银行内部的财资空间却没什么作用。因为财资部有自己的产品群,如外汇、期权、掉期交易(Swaps)、远期交易(Forwards)以及更为重要的现货交易(Spots)。线上交易需要结合这些产品的复杂程度、客户风险、市场与经济行为以及信用记录信息,这对银行来说几乎是一个遥远的梦想。

聊天机器人 - 私人财务助理:聊天机器人可以担当财务顾问,成为个人财务指南,跟踪开支,提供从财产投资到新车消费方面的建议。财务机器人还可以把复杂的金融术语转换成通俗易懂的语言,更易于沟通。一家名为Kasisto 的公司的聊天机器人就能处理各种客户请求,如客户通知、转账、支票存款、查询、常见问题解答与搜索、内容分发渠道、客户支持、优惠提醒等。通过长期记录用户的可扣除费用,还能提供潜在节流账单。

机器学习是一项比较新的技术,鉴于数据敏感性、基础设施需求、业务模型灵活性等原因,机器学习的应用有其自身缺点,但它有助于解决很多问题,且优点大于缺点,因而受到了众多学者和行业专家的分析,可以肯定的是,该领域在未来必定会出现更多创新的应用。

对世界各国来说,金融都很重要,机器学习技术比人类操作更为安全,能保护其免受威胁、改善其运营,是金融业的最佳选择,也有助于各国更快实现发展和繁荣。

机器学习 优势 应用
上一篇:使用深度学习进行医疗影像分析:文件格式篇 下一篇:?V学教育崔炜:未来,教育领域的教学将会被机器人所取代
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

机器学习与预测分析的区别在何处?

如今,认知学习的应用比以往更为普遍。通常意义上讲,认知学习与认知计算就是涉及AI技术与信号处理的操作过程或技术平台。

读芯术 ·  9h前
大盘点:8月Github上7个值得关注的数据科学项目

本文带你来看看GitHub上创建于2019年8月的7个数据科学项目。笔者所选项目的范围十分广泛,涉及从机器学习到强化学习的诸多领域。

读芯术 ·  10h前
非监督学习最强攻略

本次主要讲解的内容是机器学习里的非监督学习经典原理与算法,非监督,也就是没有target(标签)的算法模型。

SAMshare ·  15h前
PyTorch终于能用上谷歌云TPU,推理性能提升4倍,该如何薅羊毛?

Facebook在PyTorch开发者大会上正式推出了PyTorch 1.3,并宣布了对谷歌云TPU的全面支持,而且还可以在Colab中调用云TPU。

晓查 ·  16h前
机器学习转化为生产力,警惕这4个常见陷阱!

几乎每个人都想在他们的业务中引入机器学习,但是这些人也遇到了一个大问题:让模型可持续发展十分困难,尤其是在云架构的基础上。medium上一位博主也指出了这个问题,并提出了将机器学习模型投入生产的4个常见陷阱。

大数据文摘 ·  1天前
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。

机器之心 ·  2天前
机器学习免费跑分神器:集成各大数据集,连接GitHub就能用

搞机器学习的小伙伴们,免不了要在各种数据集上,给AI模型跑分。现在,Papers with Code (那个以论文搜代码的神器) 团队,推出了自动跑分服务,名叫sotabench,以跑遍所有开源模型为己任。

栗子 鱼羊 ·  2天前
大数据为什么不够聪明?机器要如何走向强人工智能

大数据为什么不够聪明?比概率语言更强大的思考工具是什么?科幻电影中的强人工智能到底怎样实现?如何让智能机器像人一样思考?搞清楚因果关系才能拨云见日。

明日情报 ·  2天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载