5 款不错的开源语音识别/语音文字转换系统

作者: LCTT 2019-06-24 09:30:00

 语音文字转换(speech-to-text)(STT)系统就像它名字所蕴含的意思那样,是一种将说出的单词转换为文本文件以供后续用途的方式。

语音文字转换技术非常有用。它可以用到许多应用中,例如自动转录,使用自己的声音写书籍或文本,用生成的文本文件和其他工具做复杂的分析等。

在过去,语音文字转换技术以专有软件和库为主导,要么没有开源替代品,要么有着严格的限制,也没有社区。这一点正在发生改变,当今有许多开源语音文字转换工具和库可以让你随时使用。

这里我列出了 5 个。

开源语音识别库

DeepSpeech 项目

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 16 open source speech recognition

该项目由 Firefox 浏览器的开发组织 Mozilla 团队开发。它是 100% 的自由开源软件,其名字暗示使用了 TensorFlow 机器学习框架实现去功能。

换句话说,你可以用它训练自己的模型获得更好的效果,甚至可以用它来转换其它的语言。你也可以轻松的将它集成到自己的 Tensorflow 机器学习项目中。可惜的是项目当前默认仅支持英语。

它也支持许多编程语言,例如 Python(3.6)。可以让你在数秒之内完成工作:

  1. pip3 install deepspeech 
  2. deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav 

你也可以通过 npm 安装它:

  1. npm install deepspeech 
  • 项目主页

Kaldi

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 18 open source speech recognition

Kaldi 是一个用 C++ 编写的开源语音识别软件,并且在 Apache 公共许可证下发布。它可以运行在 Windows、macOS 和 Linux 上。它的开发始于 2009。

Kaldi 超过其他语音识别软件的主要特点是可扩展和模块化。社区提供了大量的可以用来完成你的任务的第三方模块。Kaldi 也支持深度神经网络,并且在它的网站上提供了 出色的文档 。

虽然代码主要由 C++ 完成,但它通过 Bash 和 Python 脚本进行了封装。因此,如果你仅仅想使用基本的语音到文字转换功能,你就会发现通过 Python 或 Bash 能够轻易的实现。

  • 项目主页

Julius

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 20 open source speech recognition

它可能是有史以来最古老的语音识别软件之一。它的开发始于 1991 年的京都大学,之后在 2005 年将所有权转移到了一个独立的项目组。

Julius 的主要特点包括了执行实时 STT 的能力,低内存占用(20000 单词少于 64 MB),能够输出 ***词(N-best word)和 词图(Word-graph),能够作为服务器单元运行等等。这款软件主要为学术和研究所设计。由 C 语言写成,并且可以运行在 Linux、Windows、macOS 甚至 Android(在智能手机上)。

它当前仅支持英语和日语。软件应该能够从 Linux 发行版的仓库中轻松安装。只要在软件包管理器中搜索 julius 即可。***的版本 发布 于本文发布前大约一个半月之前。

  • 项目主页

Wav2Letter++

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 22 open source speech recognition

如果你在寻找一个更加时髦的,那么这款一定适合。Wav2Letter++ 是一款由 Facebook 的 AI 研究团队于 2 个月之前发布的开源语言识别软件。代码在 BSD 许可证下发布。

Facebook 描述它的库是“最快、 ***进(state-of-the-art)的语音识别系统”。构建它时的理念使其默认针对性能进行了优化。Facebook ***的机器学习库 FlashLight 也被用作 Wav2Letter++ 的底层核心。

Wav2Letter++ 需要你先为所描述的语言建立一个模型来训练算法。没有任何一种语言(包括英语)的预训练模型,它仅仅是个机器学习驱动的文本语音转换工具,它用 C++ 写成,因此被命名为 Wav2Letter++。

  • 项目主页

DeepSpeech2

5 款不错的开源语音识别/语音文字转换系统

5 Good Open Source Speech Recognition/Speech-to-Text Systems 24 open source speech recognition

中国软件巨头百度的研究人员也在开发他们自己的语音文字转换引擎,叫做“DeepSpeech2”。它是一个端对端的开源引擎,使用“PaddlePaddle”深度学习框架进行英语或汉语的文字转换。代码在 BSD 许可证下发布。

该引擎可以在你想用的任何模型和任何语言上训练。模型并未随代码一同发布。你要像其他软件那样自己建立模型。DeepSpeech2 的源代码由 Python 写成,如果你使用过就会非常容易上手。

  • 项目主页

总结

语音识别领域仍然主要由专有软件巨头所占据,比如 Google 和 IBM(它们为此提供了闭源商业服务),但是开源同类软件很有前途。这 5 款开源语音识别引擎应当能够帮助你构建应用,随着时间推移,它们会不断地发展。在几年之后,我们希望开源成为这些技术中的常态,就像其他行业那样。

如果你对清单有其他的建议或评论,我们很乐意在下面听到。

开源 技术 趋势
上一篇:造假AI又进化!只要一张照片,说话唱歌视频自动生成 下一篇:为何多所大学与顶级富豪联合推进AI技术控制研究?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

化身阿凡达,国外小哥开源 AI 实时变脸工具 Avatarify

疫情期间,很多人都在用 Zoom 和 Skype 等软件进行视频会议。国外一位开发小哥觉得这样开会太无聊,于是基于 first-order-model 开发了一个能够把别人的照片套在自己脸上的“变脸”软件 Avatarify,并将其开源。

OSC神秘老司机 ·  2天前
华为突破封锁,对标谷歌Dropout专利,开源自研算法Disout

美国持续封锁,华为的技术自研,已经深入到了AI底层算法层面上,并开始将研究成果面向业界开源。

乾明 金磊 ·  2020-05-20 10:25:43
Facebook 开源聊天机器人 Blender,号称全球最强

Facebook AI 和机器学习部门 FAIR 发布博客宣布,经过多年研究,其已经构建和开源了一个新的聊天机器人 Blender。

白开水不加糖 ·  2020-05-06 08:46:53
100倍加速!深度学习训练神器Determined AI宣布开源!更快,更简单,更强大

作为一名深度学习科研人员,小编我可是深受模型训练的困扰:一个模型要跑几天几夜,结果最后发现有一步错了 ...从头再来

科雨、白峰 ·  2020-05-03 13:52:27
「英伟达呼吸机」开源:计算机架构大师打造,成本暴减98%,黄仁勋点赞

计算机先驱们也加入了抗击新冠的行列:英伟达首席科学家 Bill Dally 本周宣布了一款开源低成本机械呼吸机设计。

佚名 ·  2020-05-02 18:49:35
15亿语料训练的94亿参数大模型更懂我?Facebook开源全球超强聊天机器人Blender

尽管聊天机器人和虚拟助手已经取得了很大的进步,但市面上的聊天机器人大多数是以任务为导向的。从零售业到医疗保健到金融服务等各个领域都有专门的产品,在一些领域垂直的任务中表现尚可。

鹏飞,白峰 ·  2020-04-30 13:30:30
让梦露和龙妈学着你说话,只需一张静态图和一个视频

想让名人学着你说话,怎么办?很简单,只要一张名人的照片,配上你说话的视频,分分钟就能搞定。

十三 ·  2020-04-28 10:32:37
这家中国AI创业公司拿下顶会竞赛冠军,代码已经开源

人工智能顶会NeurIPS举办的AutoDL 2019-2020系列竞赛落幕,来自中国的AI创业公司,斩获冠亚军。

乾明 ·  2020-04-20 10:08:22
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载