有这5款开源软件,语音转文字很简单!

作者: 猿妹 2019-12-13 09:48:48

语音文字转换(STT)系统,一种能够将语音单词转换成文本的方法,用途十分广泛,比如我们经常在用的微信聊天中语音转文字功能。

过去,语音转文本技术由专有软件和库控制;开源替代方案不存在或存在极端局限,如今这种形势已经发生变化,今天你可以使用许多开源的语音转文本工具和库,今天,我们就举5个好用的开源语音识别库。

1、DeepSpeech项目 

有这5款开源软件,语音转文字很简单!

该项目由Mozilla开发,这是一个100%免费的开源语音转文本库,它使用了 TensorFlow 机器学习框架实现去功能。

你可以使用它自己构建训练模型,以增强语音转换到文本的效果,你还可以根据自己的需要引入其他语言,甚至可以轻松把它集成到TensorFlow上的其他机器学习项目中。唯一可惜的是,该项目目前默认情况下仅支持英语。

它也支持多种语言,例如Python(3.6)。运行十分简单:

  1. pip3安装deepspeech  
  2. deepspeech --model模型/output_graph.pbmm --alphabet模型/alphabet.txt --lm模型/lm.binary --trie模型/ trie --audio my_audio_file.wav  

你也可以使用npm安装它:

  1. npm安装deepspeech 

近日,DeepSpeech还登上Github Trending周榜:

有这5款开源软件,语音转文字很简单!

Github地址:https://github.com/mozilla/DeepSpeech

2、Kaldi

有这5款开源软件,语音转文字很简单!

Kaldi是用C++编写的开源语音识别软件,遵循Apache公共许可协议,支持Windows,macOS和Linux,2009年就已经发布了。

与其他语音识别软件相比,Kaldi的主要功能是可扩展和模块化。社区提供了大量的第三方模块,Kaldi还支持深度神经网络,并在其网站上提供了完整的使用文档。

虽然代码主要是用C++编写的,但是它通过 Bash 和 Python 脚本进行了封装。因此,如果你只是想实现基本的语音转换成文本功能,那通过Python或Bash就可以轻松实现这一点。

项目主页:https://kaldi-asr.org/

3、Julius

有这5款开源软件,语音转文字很简单!

这可能是有史以来最古老的语音识别软件之一;京都大学在1991年的时候开发的,然后于2005年将它移交给一个独立的项目团队。

Julius 的主要特点包括了执行实时 STT 的能力,低内存占用(20000 单词少于 64 MB),能够输出最优词N-best word和词图Word-graph,能够作为服务器单元运行等等。这款软件主要为学术和研究所设计。它是由C 语言写成,并且可以运行在 Linux、Windows、macOS 甚至 Android(在智能手机上)。

目前,它仅支持英语和日语,该软件可能很容易安装在Linux发行版的仓库中。只需在软件包管理器中搜索julius包即可。

项目主页:https://github.com/julius-speech/julius

4、Wav2Letter ++

有这5款开源软件,语音转文字很简单!

Wav2Letter ++是一款开源语音识别软件,在今年由Facebook的AI研究团队发布。该代码在BSD许可下发布。Facebook将其仓库描述为“当下最快、最先进的语音识别系统”,默认情况下,构建此工具所基于的概念使其针对性能进行了优化,Wav2Letter ++是基于FlashLight构建,它也是Facebook最新的机器学习库。

使用Wav2Letter ++,你首先需要为你自己想要的语言构建训练模型,以便于训练算法,没有任何一种语言(包括英语)的预训练模型,它仅仅是个机器学习驱动的文本语音转换工具,它用 C++ 写成,因此被命名为 Wav2Letter++。

项目主页:https://github.com/facebookresearch/wav2letter

5、DeepSpeech2

有这5款开源软件,语音转文字很简单!

百度的研究人员也在研究自己的语音转文本引擎DeepSpeech2。这是一个端到端的开源引擎,它使用“ PaddlePaddle”深度学习框架将英语和普通话的语音转换为文本。该项目在BSD许可下发布。

该引擎可以针对任何模型和所需的任何语言进行培训。模型不随代码一起发布;就像其他软件一样,你必须自己构建它们。DeepSpeech2的源代码是用Python编写的;因此,如果这是你使用的语言,你应该很快就能使用上手

项目地址:https://github.com/PaddlePaddle/DeepSpeech

语音识别类别主要还是由专有软件巨头(例如Google和IBM)来主导(它们确实为此提供了自己的闭源商业服务),但是开源替代方案是有希望的。这5个开源语音识别引擎让你可以自己着手构建应用程序,不知道有没有你用过的呢?

开源 技术 软件
上一篇:麻省理工、IBM合推新型数据集,“为计算机视觉黄金时代做准备” 下一篇:国内人才报告:机器学习工程师平均薪资近3万,顶尖者年薪可达百万
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

化身阿凡达,国外小哥开源 AI 实时变脸工具 Avatarify

疫情期间,很多人都在用 Zoom 和 Skype 等软件进行视频会议。国外一位开发小哥觉得这样开会太无聊,于是基于 first-order-model 开发了一个能够把别人的照片套在自己脸上的“变脸”软件 Avatarify,并将其开源。

OSC神秘老司机 ·  2020-05-27 09:56:41
华为突破封锁,对标谷歌Dropout专利,开源自研算法Disout

美国持续封锁,华为的技术自研,已经深入到了AI底层算法层面上,并开始将研究成果面向业界开源。

乾明 金磊 ·  2020-05-20 10:25:43
Facebook 开源聊天机器人 Blender,号称全球最强

Facebook AI 和机器学习部门 FAIR 发布博客宣布,经过多年研究,其已经构建和开源了一个新的聊天机器人 Blender。

白开水不加糖 ·  2020-05-06 08:46:53
100倍加速!深度学习训练神器Determined AI宣布开源!更快,更简单,更强大

作为一名深度学习科研人员,小编我可是深受模型训练的困扰:一个模型要跑几天几夜,结果最后发现有一步错了 ...从头再来

科雨、白峰 ·  2020-05-03 13:52:27
「英伟达呼吸机」开源:计算机架构大师打造,成本暴减98%,黄仁勋点赞

计算机先驱们也加入了抗击新冠的行列:英伟达首席科学家 Bill Dally 本周宣布了一款开源低成本机械呼吸机设计。

佚名 ·  2020-05-02 18:49:35
15亿语料训练的94亿参数大模型更懂我?Facebook开源全球超强聊天机器人Blender

尽管聊天机器人和虚拟助手已经取得了很大的进步,但市面上的聊天机器人大多数是以任务为导向的。从零售业到医疗保健到金融服务等各个领域都有专门的产品,在一些领域垂直的任务中表现尚可。

鹏飞,白峰 ·  2020-04-30 13:30:30
让梦露和龙妈学着你说话,只需一张静态图和一个视频

想让名人学着你说话,怎么办?很简单,只要一张名人的照片,配上你说话的视频,分分钟就能搞定。

十三 ·  2020-04-28 10:32:37
这家中国AI创业公司拿下顶会竞赛冠军,代码已经开源

人工智能顶会NeurIPS举办的AutoDL 2019-2020系列竞赛落幕,来自中国的AI创业公司,斩获冠亚军。

乾明 ·  2020-04-20 10:08:22
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载