1400 小时数据,Common Voice 成最大开源人类语音数据集

作者: h4cd 2019-03-05 10:07:33

 Mozilla 近日发布了其开源语音识别数据集项目 Common Voice 的***版本,并宣布其已成为当前全球***的人类语音数据集。

Common Voice 是一个旨在创建开源语音识别数据集的项目,于 2017 年 6 月发布,它邀请来自世界各地的志愿者通过网络和移动应用程序,用他们的声音记录文本片段。Mozilla 官方表示,目前 Common Voice 数据集覆盖了 18 种不同的语言,累计有超过 42000 名贡献者录制了近 1400 小时的语音数据。

关于语音质量,Common Voice 除了语音多样性高,还可选地收集了收录者的一些具体语音信息,包括年龄、性别和口音等元数据,这可以为训练语音引擎提供强有力的支持。

数据集下载地址:https://voice.mozilla.org/data

业内普遍认为语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别技术在不断突破,通过语音助手如 Alexa、Google Assistant、Siri 和 Cortana,各公司将收集到的用户语音数据归为公司自己所有,这些数据的价值或许目前很难被外界看出来,但是在信息化高度发达,特别是今天这样一个大数据和人工智能时代,为开发机器学习模型提供语音数据集怎么看都是一件有深远意义的事,这些语音数据的意义会慢慢体现。而最终当它们的价值逐渐显现,人们会发现在这背后亚马逊、谷歌、苹果和微软等公司已经牢牢锁住了语音技术的命门,主导了这场语音市场之争。

Common Voice 项目就是为了避免这样的事情而诞生的,它的目的是将收集到的语音数据集开源给公众,使得任何人都可以自由使用这些数据集来将语音识别技术智能地构建到各种应用程序和服务中。

开源 技术 数据
上一篇:周鸿?:人工智能有很多根安全软肋 下一篇:互联网科技企业家两会建言,都在关注哪些方面?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

选择正确人工智能数据存储的6个准则

企业选择错误的人工智能存储平台可能会产生严重影响。因此,人们需要了解可能影响企业选择人工智能数据存储策略的6个准则。

Chris Evans ·  4天前
性能最高提升480倍:Arm推出2款新AI边缘计算芯片设计

Arm 推出了 2 款具有 AI 功能的 NPU(神经处理单元),Arm Cortex-M55 和Ethos-U55。

鱼羊 ·  2020-02-12 09:35:30
史上一次超大规模AI抗疫

即使是平时对人工智能技术没有多少兴趣的人,在这段特殊时期也会注意到 AI 这个字母组合。

风辞远 ·  2020-02-10 08:00:38
人工智能是身份欺诈流行的优秀解决方案

网络欺诈成为一个持续的问题有相当长的一段时间。如今的技术可能已经变得更加复杂,但网络犯罪分子也是如此。现在,有了多种验证方式,这使人们感到更加安全,但是,看到像Facebook或Yahoo这样的大公司的数据遭到破坏的消息仍然令人不安。

Harris ·  2020-02-03 16:40:48
机器学习是否可以准确预测股市?

自从股市诞生,人们就一直在与这套系统博弈,并试图战胜市场。多年来,人们尝试了数千项理论和实验,但没有一项能够长久地在股票市场奏效。

读芯术 ·  2020-01-31 16:08:00
一文看尽2019全年AI技术突破

最近,Analytics Vidhya发布了2019年AI技术回顾报告,总结了过去一年中,AI在不同技术领域取得的进展,并展望了2020年的新趋势。

边策 十三 鱼羊 ·  2020-01-30 10:30:32
强化学习能否在2020年取得突破?

强化学习对于实现我们的人工智能 / 机器学习技术的目标来说至关重要,但现在我们还有一些障碍需要克服。

Bill Vorhies ·  2020-01-23 15:33:07
阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

近日,阿里开源了基于 MNN 引擎的项目 MNNKit,面向安卓和 iOS,以 SDK 的方式提供 AI 端侧推理能力。开发者不需要了解算法细节就可以直接使用。

一鸣、Jamin ·  2020-01-23 15:08:02
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载