2018年最富含金量的6款开源机器学习项目

作者: 黄善清 2019-01-07 10:50:58

 刚过去的 2018 年对人工智能与机器学习领域来说是「丰收」的一年,我们看到越来越多具有影响力的机器学习应用被开发出来,并且应用到了实际生活的诸多领域,特别是在医疗保健、金融、语音识别、增强现实和更复杂的 3D 视频应用领域。

此外,我们发现业内产生越来越多应用驱动型的研究工作,数量上甚至超过了理论驱动型研究。不可否认这种变化有其弊端,然而我们要看到它积极的一面,随着能够迅速被商业转化的研究增多,对整个行业产生了不可估量的积极影响,这在机器学习开源领域尤其明显。

最后,一起看看过去一年中 6 个最实用的机器学习项目。这些项目都已发布了代码与数据集,方便个人和小团队进行学习并创造价值,这些项目也许在理论上并不具有开创性,却非常实用。

本文源自 Towards Data Science 的 George Seif,编译如下。

1)Fast.ai

开源地址:

https://github.com/fastai/fastai

Fast.ai 库能让我们通过最优方案来简化神经网络的训练工程,它抽象出了在实际搭建深度神经网络过程中的所有细节工作,设计上充分考虑了从业者们构建程序的思维模式,因而非常易于使用。该库最初是为 Fast.ai 课程的学生所创建,通过简洁易懂的方式在 Pytorch 库的基础上进行编写。另外,它在文件库的整理上也是一流的。(文件库地址:https://docs.fast.ai/

2)Detectron

开源地址:

https://github.com/facebookresearch/Detectron

Detectron 是由 Facebook 开发用于物体检测与实例分割的研究型平台,用深度学习框架 Caffe2 写成,包含了各类物体检测算法的实现,如:

Mask R-CNN:通过 Faster R-CNN 结构实施物体检测与实例分割。

https://arxiv.org/abs/1703.06870

RetinaNet:特征金字塔网络,通过独特的 Focal Loss 来处理具有挑战性的案例。

https://arxiv.org/abs/1708.02002

Faster R-CNN:物体检测网络中最常见的结构。

https://arxiv.org/abs/1506.01497 )

所有网络均可使用以下任一备选分类网络:

ResNeXt{50101152}

https://arxiv.org/abs/1611.05431

RESNET{50101152}

https://arxiv.org/abs/1512.03385

特征金字塔网络(使用 ResNet / ResNeXt)

https://arxiv.org/abs/1612.03144

VGG16

https://arxiv.org/abs/1612.03144

值得一提的是,这些平台功能自带 COCO 数据集上的预训练模型,这也意味着用户可以快速使用。同时这些功能均已严格按照标准评估指标在 Detectron model zoo(https://github.com/facebookresearch/Detectron/blob/master/MODEL_ZOO.md)中完成测试工作。

3)FastText

开源地址:

https://github.com/facebookresearch/fastText

这是另一项来自 Facebook 的研究成果,fastText 库专为文本表示与文本分类而编写。该库配备了预先训练好的单词向量模型,涵盖语言达 150 多种,可用于完成多项任务,包括文本分类、摘要和翻译等。

4)AutoKeras

Auto-Keras 是用于自动机器学习(AutoML)的开源软件库,由德克萨斯 A&M 大学的 DATA Lab(https://faculty.cs.tamu.edu/xiahu/index.html)与社区贡献者共同开发。AutoML 的目标是为缺乏数据科学或机器学习背景的领域专家们打造一个易于使用的深度学习工具。Auto-Keras 提供了为深度学习模型自动匹配最佳架构与超参数的功能。

5)Dopamine

开源地址:

https://github.com/google/dopamine

Dopamine 是 Google 专为加速强化学习算法原型设计而创建的研究框架,在严格遵照 RL 算法、指标与基准的基础上,达到灵活且易于使用的目的。

根据 Dopamine 提供的文档显示,他们产品设计原则包括:

  • 便于执行的实验:帮助新用户运行基准实验

  • 灵活的开发流程:促进更多开创性想法的诞生

  • 简洁可靠:能够落地实现一些较旧或者较流行的算法

  • 可重复性:确保结果得以复现

6)vid2vid

开源地址:

https://github.com/NVIDIA/vid2vid

vid2vid 是基于 Nvidia 最先进视频到视频合成算法的 Pytorch 实现项目。视频到视频合成算法的目标是习得从输入源视频(例如一系列语义分割 mask)到输出可精确描绘源视频内容的真实渲染视频过程中的映射函数。

该库的优点在于选择的多样性:它提供了针对自动驾驶/城市场景、人脸以及人体姿势在内的不同 vid2vid 应用程序。此外,还附带了丰富的指令和功能,其中包括数据集加载、任务评估、网络训练和多 GPU!

特别提及

  • ChatterBot:用于创建对话引擎和聊天机器人的机器学习项目

开源地址:

https://github.com/gunthercox/ChatterBot

  • Kubeflow:Kubernetes 的机器学习工具包

开源地址:

https://github.com/kubeflow/kubeflow

  • imgaug:用于图像增强的深度学习项目

开源地址:

https://github.com/aleju/imgaug

  • imbalanced-learn:scikit 下的 Python 框架,专用于修复不平衡的数据集

开源地址:

https://github.com/scikit-learn-contrib/imbalanced-learn

  • mlflow:用于管理 ML 项目周期的开源平台,覆盖实验、复现与部署等流程。

开源地址:

https://github.com/mlflow/mlflow

  • AirSim:基于 Unreal Engine/ Unity 的自动驾驶汽车模拟器,由微软出品

开源地址:

https://github.com/Microsoft/AirSim

开源 技术 机器学习
上一篇:Kubeflow 公布 1.0 路线图:2019 年实现 API 稳定 下一篇:未来10年预测报告:老龄化加剧,婴幼儿市场萎缩,AI渗入各类产品
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

机器学习转化为生产力,警惕这4个常见陷阱!

几乎每个人都想在他们的业务中引入机器学习,但是这些人也遇到了一个大问题:让模型可持续发展十分困难,尤其是在云架构的基础上。medium上一位博主也指出了这个问题,并提出了将机器学习模型投入生产的4个常见陷阱。

大数据文摘 ·  1天前
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。

机器之心 ·  2天前
机器学习免费跑分神器:集成各大数据集,连接GitHub就能用

搞机器学习的小伙伴们,免不了要在各种数据集上,给AI模型跑分。现在,Papers with Code (那个以论文搜代码的神器) 团队,推出了自动跑分服务,名叫sotabench,以跑遍所有开源模型为己任。

栗子 鱼羊 ·  2天前
大数据为什么不够聪明?机器要如何走向强人工智能

大数据为什么不够聪明?比概率语言更强大的思考工具是什么?科幻电影中的强人工智能到底怎样实现?如何让智能机器像人一样思考?搞清楚因果关系才能拨云见日。

明日情报 ·  2天前
2019机器学习框架之争:与Tensorflow竞争白热化,进击的PyTorch赢在哪里?

2019年,机器学习框架之争进入了新阶段:PyTorch与TensorFlow成为最后两大玩家,PyTorch占据学术界领军地位,TensorFlow在工业界力量依然强大,两个框架都在向对方借鉴,但是都不太理想。

大数据文摘 ·  2天前
机器学习帮你预测电池寿命:精确了解电池还能充几次

电池寿命的确定,是移动硬件发展的重要一环,但是由于电池电化学反应的不确定性以及不同的使用环境和习惯,电池寿命变成了一门玄学。不过柏林的三位小伙伴,利用Tensorflow,在原有的预测体系基础上。更近一步,完成了电池的全寿命预测。

靓科技解读 ·  3天前
PyTorch横扫顶会,TensorFlow退守业界:机器学习框架一年变天

机器学习框架的世界,局势变化过于迅猛,稍不注意就会被抢了地盘。一年前,TensorFlow还是各大顶会论文选择的主流框架,如今顶会几乎成了PyTorch的天下。

鱼羊 栗子 ·  3天前
Nature发文:深度学习系统为什么这么好骗?

今天的人工智能系统经常会出现莫名其妙的 bug。最新一期《自然》杂志上的这篇文章向我们介绍了深度学习为什么如此容易出错,以及解决这些问题的研究方向。

机器之心 ·  4天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载