机器学习自主解决安全威胁离我们还有多远?

作者: marvin 2017-03-16 13:38:17

曾经听见不止一次这样的问题:

机器学习会替代基于人工经验规则的安全解决方案么?

把这个问题放在去年来看,我们已经得到了非常多的讨论甚至是一些已经实际应用的解决方案,对于人工智能在安全以及其它各种对数据进行价值挖掘的场景下,大家都表现出了极高的兴趣与激情。

1. 你希望机器学习帮助你解决什么问题?

你希望机器学习帮助你解决什么问题?

这个问题实际上代表了我们对机器学习的期待,而绝大多数人包括笔者在内的回答可能都比较类似:

我希望机器学习算法能够帮助我更有效的挖掘数据内在价值,发现潜在未知问题,并且极大的节省人工成本;实际上有更偏激的想法是想把数据丢给模型算法,然后期待它可以告诉我所有我想知道的事情。

2. 机器学习应用在安全场景下的担忧

笔者最初发现机器学习算法的应用并不是在安全领域,而是在电商精准营销的场景下,通过用户的一系列搜索、收藏、购买行为积累,预测一个新的用户可能更倾向于买什么商品从而进行推荐。

这与安全场景是有一定类似性的,同样也是通过用户的访问、登陆、购买行为对威胁进行预测,评估一个用户是否是坏人。但这两个场景又具有一个本质的不同:

在精准营销场景下,你预测错误推荐了一个用户他不喜欢的商品,用户并不会为此大发雷霆;但是如果你的算法错误的预测了一个坏人的身份,用户又因此而被锁定账号、封禁或被限制,影响的就不仅仅是用户的感受,同时也降低了信任甚至对其他用户产生负面影响,我们所承担的代价是不同的。

3. 机器学习在当下更多的是一个驱动者

在有限条件的应用场景下,机器学习无论从效率还是效果上都有着惊人的表现,从下围棋到设计电路板,我们无法理解也无法解释为什么电脑能够做的又好又快。

安全场景下为什么去封禁一个IP或者取消一个订单是需要给业务部门合理的解释的,一个黑盒的逻辑最大的弊端就在于对于给出的结果合理性无法从常识角度来给出解释,你只能默认接受。

所以,我们看到应用了各类机器学习算法的安全解决方案往往会回避最终决策的步骤,而是交给人工进行再次确认或只做参考。由此笔者认为,现阶段机器学习更多的是一个驱动安全运营的角色。

4. 数据质量决定了机器学习算法应用于安全场景的价值天花板,而安全运营则是决定了转化率

数据源就是机器学习算法的黄油和面包,没有高质量的数据喂进去很难指望有高价值的产出,而目前接入数据的思路主要有两种:

  • 一种是从企业现有数据中去做清洗和适配,这种方式对于集成双方都是一个非常痛苦的过程;
  • 另外一种是摒弃企业现有存量数据,通过JS、SDK等方式从底层通用环节重新搭建业务数据模型,这种方式会导致历史数据无法有效的应用。

从卖方来讲,希望后一种模式,因为降低了方案实施难度,复制性较强,产品形态简单。而从买方来讲,条件允许的情况下都希望前一种模式,因为可预期的产出价值最高。

两种想法冲撞的结果下,最终会寻求到一个平衡点,但这里存在一个特例,也是最近两年比较热的威胁情报+机器学习概念,区别于内部数据挖掘场景,威胁情报的数据大多都来自外部,服务提供方一次性接入数据便可以快速复制给多个客户,这无疑规避了一个客户一个处理方式的弊端。

但笔者认为,威胁情报如今可以快速聚集起大量数据的原因在于数据持有者变现意愿增强同时监管存在空白,之后还是存在很大的政策风险的。

而我们进一步来看机器学习应用所驱动的安全运营,“一人安全部”甚至没有安全运营是目前的普遍现状,在机器学习引入过之后发现依然需要大量的调优、协调、结果落地评估工作需要人工来完成,这种尴尬局面我认为在热度过后,今年会有更多的冷静思考,认识到:既然现在没有可以绝对替代人工完成风险决策的方案出现,那么安全运营这个角色就是不可或缺的,至少是在目前的过渡阶段。

5. 机器学习的安全前景

经济增长往往都来自于生产效率的大幅提升,所以无论是在安全或是其他,机器学习的应用都已经表现出了可承诺的前景。

机器学习的安全前景

在这个过程中,低层次数据分析的人工角色会逐渐的被淘汰,而可有效链接数据与价值的高端人才将持续保持其竞争力,至少我们需要知道现阶段的机器学习算法并不能让我们放心的坐到一边喝咖啡,它自动解决所有问题,依然需要我们不断的给予正确的关注和培养,不是吗?

【本文是51CTO专栏机构“岂安科技”的原创文章,转载请通过微信公众号(bigsec)联系原作者】

戳这里,看该作者更多好文

机器学习 安全威胁 数据
上一篇:机器学习进阶笔记之一 | TensorFlow安装与入门 下一篇:一周入门机器学习靠谱吗?这有一份详细的学习日程表
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

机器学习与预测分析的区别在何处?

如今,认知学习的应用比以往更为普遍。通常意义上讲,认知学习与认知计算就是涉及AI技术与信号处理的操作过程或技术平台。

读芯术 ·  17h前
大盘点:8月Github上7个值得关注的数据科学项目

本文带你来看看GitHub上创建于2019年8月的7个数据科学项目。笔者所选项目的范围十分广泛,涉及从机器学习到强化学习的诸多领域。

读芯术 ·  18h前
全球十大AI训练芯片大盘点

AI芯片哪家强?现在,有直接的对比与参考了。英国一名资深芯片工程师James W. Hanlon,盘点了当前十大AI训练芯片。

乾明 ·  18h前
模型仅1MB,更轻量的人脸检测模型开源,效果不弱于主流算法

AI模型越来越小,需要的算力也也来越弱,但精度依旧有保障。最新代表,是一个刚在GitHub上开源的中文项目:一款超轻量级通用人脸检测模型。

乾明 ·  18h前
非监督学习最强攻略

本次主要讲解的内容是机器学习里的非监督学习经典原理与算法,非监督,也就是没有target(标签)的算法模型。

SAMshare ·  23h前
PyTorch终于能用上谷歌云TPU,推理性能提升4倍,该如何薅羊毛?

Facebook在PyTorch开发者大会上正式推出了PyTorch 1.3,并宣布了对谷歌云TPU的全面支持,而且还可以在Colab中调用云TPU。

晓查 ·  1天前
机器学习转化为生产力,警惕这4个常见陷阱!

几乎每个人都想在他们的业务中引入机器学习,但是这些人也遇到了一个大问题:让模型可持续发展十分困难,尤其是在云架构的基础上。medium上一位博主也指出了这个问题,并提出了将机器学习模型投入生产的4个常见陷阱。

大数据文摘 ·  1天前
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。

机器之心 ·  2天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载