5 款不错的开源语音识别/语音文字转换系统

作者: LCTT 2019-06-24 09:30:00

 语音文字转换(speech-to-text)(STT)系统就像它名字所蕴含的意思那样,是一种将说出的单词转换为文本文件以供后续用途的方式。

语音文字转换技术非常有用。它可以用到许多应用中,例如自动转录,使用自己的声音写书籍或文本,用生成的文本文件和其他工具做复杂的分析等。

在过去,语音文字转换技术以专有软件和库为主导,要么没有开源替代品,要么有着严格的限制,也没有社区。这一点正在发生改变,当今有许多开源语音文字转换工具和库可以让你随时使用。

这里我列出了 5 个。

开源语音识别库

DeepSpeech 项目

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 16 open source speech recognition

该项目由 Firefox 浏览器的开发组织 Mozilla 团队开发。它是 100% 的自由开源软件,其名字暗示使用了 TensorFlow 机器学习框架实现去功能。

换句话说,你可以用它训练自己的模型获得更好的效果,甚至可以用它来转换其它的语言。你也可以轻松的将它集成到自己的 Tensorflow 机器学习项目中。可惜的是项目当前默认仅支持英语。

它也支持许多编程语言,例如 Python(3.6)。可以让你在数秒之内完成工作:

  1. pip3 install deepspeech 
  2. deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav 

你也可以通过 npm 安装它:

  1. npm install deepspeech 
  • 项目主页

Kaldi

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 18 open source speech recognition

Kaldi 是一个用 C++ 编写的开源语音识别软件,并且在 Apache 公共许可证下发布。它可以运行在 Windows、macOS 和 Linux 上。它的开发始于 2009。

Kaldi 超过其他语音识别软件的主要特点是可扩展和模块化。社区提供了大量的可以用来完成你的任务的第三方模块。Kaldi 也支持深度神经网络,并且在它的网站上提供了 出色的文档 。

虽然代码主要由 C++ 完成,但它通过 Bash 和 Python 脚本进行了封装。因此,如果你仅仅想使用基本的语音到文字转换功能,你就会发现通过 Python 或 Bash 能够轻易的实现。

  • 项目主页

Julius

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 20 open source speech recognition

它可能是有史以来最古老的语音识别软件之一。它的开发始于 1991 年的京都大学,之后在 2005 年将所有权转移到了一个独立的项目组。

Julius 的主要特点包括了执行实时 STT 的能力,低内存占用(20000 单词少于 64 MB),能够输出 ***词(N-best word)和 词图(Word-graph),能够作为服务器单元运行等等。这款软件主要为学术和研究所设计。由 C 语言写成,并且可以运行在 Linux、Windows、macOS 甚至 Android(在智能手机上)。

它当前仅支持英语和日语。软件应该能够从 Linux 发行版的仓库中轻松安装。只要在软件包管理器中搜索 julius 即可。***的版本 发布 于本文发布前大约一个半月之前。

  • 项目主页

Wav2Letter++

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 22 open source speech recognition

如果你在寻找一个更加时髦的,那么这款一定适合。Wav2Letter++ 是一款由 Facebook 的 AI 研究团队于 2 个月之前发布的开源语言识别软件。代码在 BSD 许可证下发布。

Facebook 描述它的库是“最快、 ***进(state-of-the-art)的语音识别系统”。构建它时的理念使其默认针对性能进行了优化。Facebook ***的机器学习库 FlashLight 也被用作 Wav2Letter++ 的底层核心。

Wav2Letter++ 需要你先为所描述的语言建立一个模型来训练算法。没有任何一种语言(包括英语)的预训练模型,它仅仅是个机器学习驱动的文本语音转换工具,它用 C++ 写成,因此被命名为 Wav2Letter++。

  • 项目主页

DeepSpeech2

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 24 open source speech recognition

中国软件巨头百度的研究人员也在开发他们自己的语音文字转换引擎,叫做“DeepSpeech2”。它是一个端对端的开源引擎,使用“PaddlePaddle”深度学习框架进行英语或汉语的文字转换。代码在 BSD 许可证下发布。

该引擎可以在你想用的任何模型和任何语言上训练。模型并未随代码一同发布。你要像其他软件那样自己建立模型。DeepSpeech2 的源代码由 Python 写成,如果你使用过就会非常容易上手。

  • 项目主页

总结

语音识别领域仍然主要由专有软件巨头所占据,比如 Google 和 IBM(它们为此提供了闭源商业服务),但是开源同类软件很有前途。这 5 款开源语音识别引擎应当能够帮助你构建应用,随着时间推移,它们会不断地发展。在几年之后,我们希望开源成为这些技术中的常态,就像其他行业那样。

如果你对清单有其他的建议或评论,我们很乐意在下面听到。

开源 技术 趋势
上一篇:造假AI又进化!只要一张照片,说话唱歌视频自动生成 下一篇:为何多所大学与顶级富豪联合推进AI技术控制研究?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

近日,阿里开源了基于 MNN 引擎的项目 MNNKit,面向安卓和 iOS,以 SDK 的方式提供 AI 端侧推理能力。开发者不需要了解算法细节就可以直接使用。

一鸣、Jamin ·  2020-01-23 15:08:02
Google 开源最新 NLP 模型,能处理整本《罪与罚》

Transformer 可谓是近年 NLP 领域关注度颇高的模型之一。近日,Google 又推出了 Transformer 的“升级版”——Reformer。

Rachel ·  2020-01-18 14:50:13
AI芯片2019年的六大关键词和2020年的四大趋势

AI芯片市场的竞争变得更加激烈,但大都面临落地难题。回顾2019年的AI芯片发展,6个关键词贯穿其中。展望2020年的AI芯片市场,4大趋势不容忽视。

包永刚 ·  2020-01-06 09:40:22
2020年最值得关注的四种企业AR趋势 精选

尽管 AR 技术在消费者领域的表现不尽如人意,但这并没有阻挡企业界对它的喜爱。在经历了几年的缓慢增长之后,企业增强现实(AR)似乎有望在 2020 年实现令人印象深刻的飞跃。

肖漫 ·  2019-12-29 23:55:57
微软年度研究大盘点:ML突破将到来,人机交互更真实,惜别沈向洋 精选

随着岁末钟声的临近,微软研究院回顾了这一年来在人工智能领域中的工作。

十三 ·  2019-12-26 09:52:47
有这5款开源软件,语音转文字很简单!

语音文字转换(STT)系统,一种能够将语音单词转换成文本的方法,用途十分广泛,比如我们经常在用的微信聊天中语音转文字功能。

猿妹 ·  2019-12-13 09:48:48
谷歌15个人工智能开源免费项目!开发者:懂了 精选

今天说的是来自科技“大厂”Google发布的一些涉及到机器学习、深度学习、神经网络等优质的人工智能开源项目,精心挑选了一部分推荐给大家学习。下面就来看一看。

钛灵Tiorb ·  2019-11-22 23:52:15
\"狗屁不通文章生成器\"登顶GitHub热榜,一键生成万字形式主义大作 精选

GitHub上,这个富有灵魂的项目名吸引了众人的目光。项目诞生一周,便冲上了趋势榜榜首。

栗子 鱼羊 ·  2019-11-13 14:15:00
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载