一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新:涵盖140种语言组合

作者: 鱼羊 2020-05-19 10:33:31

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了。

没错,就是 Hugging Face (抱抱脸)标星 26.9k 的 Transformer 项目。在最新更新的版本里,抱抱脸发布了 1008 种模型,正式涉足机器翻译领域。

一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新

模型涵盖 140 种不同语言组合,中文翻英文,英文译法语,法语翻阿拉伯语……还能一对多翻译。

就像这样:

一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新

抱抱脸创始人 Clement Delangue 表示:

全世界有那么多人在使用我们的开源项目,越来越多使用不同语言的人聚集在NLP社区。

这让我们意识到,应该在模型中提供更多其他语言的接入,同时也提供翻译。

1008种机器翻译模型

据抱抱脸介绍,这1000+模型,是研究人员使用无监督学习和 OPUS 数据集训练的。

OPUS 项目来自赫尔辛基大学及其全球合作伙伴,旨在收集和开源各种语言数据集,尤其是低资源(小语种)语言数据集。

部分模型

并且,抱抱脸也在 Transformer 项目中增加了喜闻乐见的 Seq2Seq 模型。

比如谷歌 AI 的 T5,Facebook 的 BART

使用方法,一如既往的简单。

比如用 opus-mt-en-ROMANCE 这个模型同时进行英语翻法语、英语翻葡萄牙语和英语翻西班牙语,一个 API 就搞定了。

一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新

就有网友评价道:节约时间的利器。

一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新

关于 Hugging Face Transformer

抱抱脸的 Transformer Python 库目前已有超过 50 万 pip 安装量,SQuAD排行榜上的最佳语言模型们通通被收编其中。

比如谷歌 AI 的 BERT、XLNet,Facebook AI 的 RoBERTa,OpenAI 的 GPT-2。

使用简单,只需一个 import。

一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新

支持 TensorFlow 2.0 和 PyTorch 之间的深度互操作。

还有在线 Demo 供你实时调戏。

一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新

这样的万星项目,NLPer 用了都说好。

一口气发布1008种机器翻译模型,GitHub最火NLP项目大更新

这就用起来?

传送门

GitHub 项目:https://github.com/huggingface/transformers

机器翻译 GitHub NLP
上一篇:人工智能正在改变软件开发的模式 下一篇:远程医疗市场预测2020年增长近65%
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

什么是“自然语言处理”? 它到底在“处理”些什么?

“自然语言处理” (Natural Language Processing,简称NLP) 是近年来科技界最热门的词语之一,也是当下人工智能研究最热门的领域之一。

潘蓉 ·  2021-01-21 10:28:16
AI时代的GitHub,这个陆奇看好的方向,终于有人做了

面向AI时代生存发展,什么最重要?数据、数据,还是数据。特别是中小企业、转型中的广大传统企业,数据、优质数据,寻找并管理数据,更是刚需中的刚需——就像互联网开发时代里对代码共享和管理的需求那样。

允中 ·  2021-01-11 10:34:59
准备开始学习NLP,我该系统地看哪些书和课程?

许多学生一直在要求我为如何开始自然语言处理准备指南。这篇博客文章旨在根据研究,对该领域的了解和个人经验来帮助他人。尽管这不是直接指南,但我在此处共享的资源可以帮助您根据需要创建自己的NLP学习路径。这将是我多年来遇到的教育资源的结合。我将分享我在研究这些资源及其适用方面的经验。

AI研习社-译站 ·  2020-12-10 15:24:05
2020全球NLP行业报告:NLP技术预算增长高达30%

2020年对于公共卫生、职业生活、经济以及日常生活的几乎所有其他方面来说,都是独一无二的一年。虽然一些机会正在消失,另一些则正在转变其商业模式,罕见没有受到冲击的企业。尽管如此,还是有一些行业正在蓬勃发展,不仅仅是虚拟会议或医疗保健。

AI研习社-译站 ·  2020-12-04 14:15:28
NLP入门干货:手把手教你3种中文规则分词方法

本文将讲解中文自然语言处理的第一项核心技术——中文分词技术,它是中文自然语言处理非常关键和核心的部分。

杜振东 涂铭 ·  2020-10-28 14:03:22
谷歌130亿参数多语言模型mT5重磅来袭,101种语言轻松迁移

Facebook刚刚开源多语种机器翻译模型「M2M-100」,这边谷歌也来了。谷歌宣布,基于T5的mT5多语言模型正式开源,最大模型130亿参数,与Facebook的M2M相比,参数少了,而且支持更多语种。

佚名 ·  2020-10-28 10:38:08
MIT 推出机器翻译新算法,破译已消失的古语言

麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的研究人员最近开发出了一种新的计算机算法,可以帮助语言学家自动破译历史上消失已久失的古语言。

白开水不加糖 ·  2020-10-27 14:34:42
在预训练NLP模型上测量性别相关性

在过去的几年中,自然语言处理(NLP)取得了长足的进步,诸如BERT,ALBERT,ELECTRA和XLNet等预训练语言模型在各种任务中均取得较高的准确性。预训练语言模型以Wikipedia这样的大型文本语料库为训练集,通过遮掩一些单词并对它们进行预测来学习嵌入表示,即遮掩语言建模。

雷锋字幕组 ·  2020-10-26 15:48:32
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载