Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型

作者: 佚名 2020-01-07 14:37:59

 在近些年的视频理解研究中,Facebook AI Research 贡献了许多精彩的工作。近日,FAIR视频团队在 ICCV 相关研讨会上开源了视频识别检测代码库 PySlowFast,并同时发布了预训练的模型库。同时,该团队表示,他们还将实时将他们的前沿工作添加至此代码库。

Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型

  • 项目地址:https://github.com/facebookresearch/SlowFast
  • Tutorial 地址(附 PPTT 资源):https://alexanderkirillov.github.io/tutorials/visual-recognition-iccv19/

视频与动作理解俨然已成为当今最火热的研究方向之一,然而在开源社区中找到一个简洁、高效、易于修改的视频理解代码库仍不是一件简单的事情。更重要的是,复现当今前沿的 (state-of-the-art) 的深度学习模型一直是一件令研究者头疼的事情。

这些视频理解模型往往动辄几十 GFlops,需要训练数天,而复现出一个模型需要反复的实验调参,让每个细节都正确。这往往会耗费大量的时间和资源,让很多研究者望而却步。

Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型

Facebook AI Research 在 CVPR、ICCV 等国际会议发布了众多研究工作,并赢得了 CVPR 2019 行为检测挑战赛的冠军。而后,在今年的 ICCV 上,FAIR 推出了他们的视频理解代码库:PySlowFast。
PySlowfast 是一个基于 PyTorch 的代码库,让研究者可以轻而易举地复现从基础至前沿的视频识别 (Video Classification) 和行为检测 (Action Detection) 算法。

不但如此,PySlowFast 代码库同时开源了大量预训练模型 (pretrain models),让研究者省去了反复训练模型的烦恼,可以直接使用 FAIR 预训练的前沿 (cutting edge performance) 模型。

pySlowFast开源的模型的可视化检测结果

自开源后,PySlowFast 就一度蝉联 GitHub 趋势榜前十。以下对此开源项目进行了简要介绍。

根据研讨会教程和开源代码库信息,PySlowFast 既提供视频理解基线(baseline)模型,还提供了当今前沿的视频理解算法复现。其算法不单单囊括视频视频(video classification),同时也包括行为检测(Action Classification)算法。

与当今开源社区中各种视频识别库复现出参差不齐的性能相比,使用 PySlowFast 可轻而易举地复现出当今前沿的模型。

视频识别(Kinetics)

Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型

表 1:PySlowFast 在视频分类数据库 Kinetics 400 上的性能)(节选自 https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)

PySlowFast 不单单可以用于视频分类,同时也可用于视频理解,并提供赢得了 2019 年 CVPR ActivityNet Challenge Winner 的视频检测模型。
行为检测(AVA)

Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型

此外,PySlowFast 预留了接口,可通过简单的编辑支持多模态视频理解、视频自监督学习等等任务。该团队称,PySlowFast 将被积极维护,实时更新其团队和业界的前沿算法,同开源其预训练模型,使代码库成为视频理解领域的基线标杆。

通过以下教程,读者们可以简单试用下 PySlowFast 代码库。在完成安装后,通过下载 MODEL_ZOO 提供的预训练模型和相应的配置文件,运行如下代码,就可以测试(Test)模型在不同视频数据库上的性能:

  1. python tools/run_net.py  
  2.   --cfg configs/Kinetics/C2D_8x8_R50.yaml  
  3.   DATA.PATH_TO_DATA_DIR path_to_your_dataset  
  4.   NUM_GPUS 2  

我们可以发现,通过此代码库可以轻易复现出前沿的高性能模型,同时读者们也可以尝试通过简单的修改来实现自己的模型,并用多台 GPU 进行训练得到前沿的性能。

代码 开发 AI
上一篇:一文看尽2019年NLP前沿突破 下一篇:阿里达摩院发布2020十大科技趋势!人工智能、区块链、芯片成焦点
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

达摩院AI进入中国科技馆,首张AI识别新冠CT成科技抗疫历史见证

5月29日消息,全国科技工作者日来临之际,一个特别的藏品入选中国科技馆“2020数字馆藏”——阿里巴巴达摩院AI识别标注的第一张新冠肺炎CT影像。达摩院AI作为科技抗疫的历史见证,被写入中国科技发展史。

佚名 ·  12h前
面对疫情下的人类行为,AI迷惑!数据变化引起的工作“异常”需人为调控

从疫情中,也可以看出,我们的生活与AI交织得多么紧密,但也暴露出了一种微妙的依赖关系,我们的行为改变会改变AI的工作方式,而AI的工作方式的改变,反过来会再次影响到我们的行为。

大数据文摘 ·  1天前
从演电影到开车,细数人工智能的五大落地方向

越来越多的企业希望通过利用人工智能的功能来提高其ROI。这篇文章就将带你了解如今人工智能的五大落地方向。

读芯术 ·  2天前
下一站AI:实时服务

随着实时解决方案的增长与人工智能技术的发展,工作负载的日益提升以及非结构化数据的爆炸式增长,数据中心的发展方向正朝着加速计算、存储与网络适应性前进。

佚名 ·  3天前
教你轻松选择合适的机器学习算法!

机器学习方面没有免费午餐。因此,确定使用哪种算法取决于许多因素:面临的问题类型和预期的输出类型等。本文介绍了为数据集探究合适的机器学习方法时要考虑的几个因素。

布加迪 ·  3天前
领创智信首推数据标注业务,打造AI商业化闭环

亚洲大数据和人工智能公司领创智信首次推出经典保留业务--数据标注与采集。该业务由人工智能(AI)团队根据国内人工智能公司出海的数据需求,利用行业领先的技术精心打造数据标注与采集一体化服务,其中包括图片、语音、对话、文本和视频数据的标注及采集。

佚名 ·  3天前
人工智能将“吞噬”数据

显然,更多数据将成为人工智能辅助解决方案的标志。对数据的渴求可能来自于更具挑战性的问题、对高级人工智能/分析的更好利用或者是端到端价值链的增长。

佚名 ·  4天前
腾讯AI又创新纪录:ACL 2020入选27篇论文

近日,国际计算语言学协会年会(ACL,The Association for Computational Linguistics)在官网公布了ACL 2020的论文收录名单,共计收录779篇论文。据不完全统计,此次腾讯共有27篇论文入选,投中论文总数刷新国内记录,领跑国内业界AI研究第一梯队。

佚名 ·  2020-05-22 23:33:11
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载