最近在做语音深度学习的项目,整理了一下语音数据标注工具和语音标注平台,供大家参考

语音标注工具--Praat

Praat是目前已经成为比较流行也比较专业的语音处理的软件,可以进行语音数据标注、语音录制、语音合成、语音分析等等,具有免费、占用空间小、通用性强、可移植性好等特点
官网链接 http://www.fon.hum.uva.nl/praat/
汉化版下载 http://www.hejingzong.cn/blog/ViewBlog_54.aspx#vidio

  1. 打开音频文件,点击标注(Annotate),转换为 TextGrid文件
    Praat语音标注工具打开
  2. 分“层”,这里分为文本、性别、身份、噪音 四层
    Praat语音标注工具分层
  3. 按住Ctrl,将音频文件和TextGrid文件都选上,点击 查看&编辑(View & Edit),开始进行标注
    Praat语音标注编辑
  4. 完成标注,保存
    Praat语音标注编辑

总的来说,Praat功能强大,但是用作语音标注,操作并不简便,难以对大批量的语音数据做好管理。最近我们找到几家数据标注平台,各家自研的标注工具更加简单好用。

语音数据标注平台/公司

京东众智
京东众智的工具是单独开发的(这个也挺好开发和复用的)操作方面简单很多,标注人员全部是在线上作答,也避免了数据外泄问题。值得一提的是,因为我们的初始数据是用算法跑过一遍的,虽然准确率不是很高...京东众智可以把我们的标注结果展示出来,标注人员简单修改一下,效率就提高很多。经过协商,因为不用重新标注,报价也减少了一些。
京东众智语音标注平台

今天先介绍这两个...未完待续=3=