Facebook发布Faiss开源资源库 精度换取效率将成机器学习发展方向 ?

编译作者: 核子可乐译 2017-03-10 06:48:00

【51CTO.com快译】在机器学习领域,聚类与相似性搜索等用于实现数据集内亲和性的方法通常较难实现。如果大家希望对多达1亿张图片进行内容比较并找出其中哪些内容相似,这无疑将成为一项极为复杂的任务。事实上,其中最困难的部分在于如何跨多处理器实现规模扩展。

Facebook发布Faiss开源资源库 精度换取效率将成机器学习发展方向 ?

Facebook旗下的AI研究事业部(简称FAIR)最近发布了一套名为Faiss的揭底性解决方案。这是一套开源资源库,通过C++编写并与Python绑定,可用于对海量数据集——例如静态图像或者视频——进行相似内容搜索。

其同时亦代表着一类不断增长的机器学习解决方案,即探索利用更好的方法将算法并发运行在大规模多GPU环境之下。

用于大海捞针的磁石

在2月底发布的论文当中,FAIR对这一项目的内容与目标进行了描述。其研发难题并不仅仅在于如何在GPU之上运行相似性搜索或者“k-选定”算法,而是如何在多个GPU之间高效实现并发运行,同时处理体积远超内存容量的数据集(例如TB级别视频)。

Faiss的优势并非搜索数据本身,而是采取压缩性质的表达形式,即通过牺牲有限的一部分精度水平实现数量级甚至更为可观的存储效率提升。大家可以将其与MP3进行类比:MP3虽然属于“有损”压缩格式,但对于大多数听众而言,其效果已经完全可以接受。同样的,Faiss采用所谓PQ(即产物量化)编码机制以在多个GPU之间对工作负载进行高效拆分。

论文中提到的一项示例涉及对雅虎Flickr Creative Commons的1亿套数据集进行搜索,其中包含1亿张图片。Faiss提取了两幅图像——一朵红花与一朵黄花——并以此为依据在其之间找到一系列类似的图像。在一组包含四块英伟达Titan X GPU的硬件支持之下,1亿张图片的相似度搜索过程共耗时35分钟。

FAIR宣称Faiss的速度“达到此前业界最先进GPU的8.5倍”,且提供了数项基准测试以支持其结论。FAIR指出,在与两块原有GPU进行k-选定算法速度比较时,Faiss算法不仅速度更快而且能够更充分地发挥GPU的最大可用存储器带宽。

FAIR同时介绍称,Faiss的另一大优势在于搜索的端到端时间——即构建数据PQ版本所需要的时间加上实际运行搜索所需要的时间。竞争性解决方案需要数天时间才能构建起一套测试用PQ图像数据,而Faiss在“大约半天”时间内即可建立起“高质量”图像。

加快脚步

FAIR所采取的略微牺牲精度以提升效率的策略已经为最新一代机器学习所广泛接受。

相当一部分此类加速方案不仅适用于英伟达Titan这样的高端硬件,同时亦可支持低端硬件——例如智能手机中的GPU。谷歌的TensorFlow深度学习系统最近即经过升级,旨在利用智能手机级别的GPU执行图像认知处理。

以精度换取效率这一算法实践的另一大长期优势在于能够将工作负载分配给本地设备(快速但不精确)与远程后端(更准确但对处理能力要求更高)。如果拥有网络连接,则本地设备负责进行分类,而后端则凭借更强大的处理资源进行深入识别。

Faiss项目带来的重要启示在于:在探索如何利用高并发硬件充分实现机器学习功能方面,我们仍有大量工作需要守恒。

原文标题:Facebook's new machine learning framework emphasizes efficiency over accuracy

原文作者:Serdar Yegulalp

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

了解更多热点新闻,请关注51CTO《科技新闻早报》栏目!

Facebook Faiss 开源资源库
上一篇:模型学习全面概述:利用机器学习查找软件漏洞 下一篇:谷歌收购Kaggle为什么会震动三界(AI、机器学习、数据科学界)?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

Facebook开发AI语音助手,或是“钱途”未卜

日前,CNBC率先报道称,从2018年初以来,Facebook就致力于开发一款基于AI的数字语音助手,欲与亚马逊的Alexa、苹果的Siri,以及Google Assistant展开角逐。而这一报道也证实了,小扎并没有放弃自己多年前的愿景。

伍文靓 ·  2019-04-19 13:37:01
PyTorch 1.0预览版发布:Facebook最新的AI开源框架

Facebook 在人工智能项目中广泛使用自己的开源 AI 框架 PyTorch,最近,他们已经发布了 PyTorch 1.0 的预览版本。PyTorch 利用 GPU 超强的运算能力 来实现复杂的 张量 计算 和 深度神经网络。 因此, 它被世界各地的研究人员和开发人员广泛使用。

Avimanyu Bandyopadhyay ·  2018-10-22 09:23:00
Spiral在Facebook通过实时机器学习自动调节服务

为了更有效地优化众多服务,可以灵活地适应不断变化、相互联系的内部服务,我们开发了Spiral。Spiral这种系统充分利用实时机器学习的技术,在Facebook这等规模的环境下自动调节高性能的基础设施服务。由于用Spiral取代了手工调节的启发法,我们可以在短短几分钟内而不是几周内优化更新后的服务。

布加迪 ·  2018-09-13 09:00:00
对于AI与假新闻, 苹果和Facebook为何会各执一词?

俗话说“耳听为虚,眼见为实”。只不过如今随着AI技术的发展,耳听和眼见都可能难以为实了。“我们觉得热点新闻应该由人工来筛选。” 6月底,苹果公司CEO蒂姆·库克在旧金山对外发声。据说话音一落,硅谷科技界一片哗然。

佚名 ·  2018-07-13 16:24:02
Facebook利用人工智能的六种方式,有些你可能想不到

Facebook正利用人工智能识别色情、保护马克•扎克伯格,甚至有一天连接到你的脑电波。

布加迪 ·  2018-06-15 09:00:00
苹果、谷歌等大厂的AI面试题被我们搞到手了,你敢来挑战吗?

什么?技术大厂的面试题泄露了???当然不是啦~ 国外知名博客平台 Medium 上有一位工程师,花时间整理了苹果、谷歌、Facebook 等一线技术大厂的 AI 面试题,为众多读者提供了不小的帮助,有人还真的因为看了他的文章,提前做好了准备,并通过了大厂的面试。

Vimarsh Karbhari ·  2018-04-25 08:00:54
围绕深度学习框架,谷歌、Facebook、百度展开“三国杀”

最近很多海外企业之中在发生一种很有趣的改变,那就是AI正在脱离来其他部门附属品的角色,成为一个独立的部门或事业部。对于AI行业来说,这显然是好消息。

脑极体 ·  2018-04-23 11:19:24
整合全部顶尖目标检测算法:FAIR开源Detectron

昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标检测平台。Facebook 称,该工具包已被应用与公司内部很多团队应用于各类应用中,一旦训练完成,这些计算机视觉模型可被部署在云端或移动设备上。

佚名 ·  2018-01-23 16:16:03
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载