1400 小时数据,Common Voice 成最大开源人类语音数据集

作者: h4cd 2019-03-05 10:07:33

 Mozilla 近日发布了其开源语音识别数据集项目 Common Voice 的***版本,并宣布其已成为当前全球***的人类语音数据集。

Common Voice 是一个旨在创建开源语音识别数据集的项目,于 2017 年 6 月发布,它邀请来自世界各地的志愿者通过网络和移动应用程序,用他们的声音记录文本片段。Mozilla 官方表示,目前 Common Voice 数据集覆盖了 18 种不同的语言,累计有超过 42000 名贡献者录制了近 1400 小时的语音数据。

关于语音质量,Common Voice 除了语音多样性高,还可选地收集了收录者的一些具体语音信息,包括年龄、性别和口音等元数据,这可以为训练语音引擎提供强有力的支持。

数据集下载地址:https://voice.mozilla.org/data

业内普遍认为语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别技术在不断突破,通过语音助手如 Alexa、Google Assistant、Siri 和 Cortana,各公司将收集到的用户语音数据归为公司自己所有,这些数据的价值或许目前很难被外界看出来,但是在信息化高度发达,特别是今天这样一个大数据和人工智能时代,为开发机器学习模型提供语音数据集怎么看都是一件有深远意义的事,这些语音数据的意义会慢慢体现。而最终当它们的价值逐渐显现,人们会发现在这背后亚马逊、谷歌、苹果和微软等公司已经牢牢锁住了语音技术的命门,主导了这场语音市场之争。

Common Voice 项目就是为了避免这样的事情而诞生的,它的目的是将收集到的语音数据集开源给公众,使得任何人都可以自由使用这些数据集来将语音识别技术智能地构建到各种应用程序和服务中。

开源 技术 数据
上一篇:周鸿?:人工智能有很多根安全软肋 下一篇:互联网科技企业家两会建言,都在关注哪些方面?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

机器学习又跨界发Nature啦!美国东北大学的研究员将研究成果发表在Nature上,探究世界各地人类的表情有什么不一样?结果相关率只有30%。

佚名 ·  2021-05-31 13:19:55
自动驾驶汽车领域究竟在纠结些什么?

正常来说,自动驾驶受到认可,技术路线正常迭代,同样会受到市场认可。但这个报告中,造车新势力配置L3自动驾驶,及传统车企配置L2辅助驾驶的比例却并没有显著提升,甚至还有所下降。

佚名 ·  2021-05-31 10:46:16
最快AI计算机开动,每秒4百亿亿浮点运算!正拼接最大宇宙3D地图

近日,被誉为全球最快的人工智能工作负载超级计算机——Perlmutte宣布开启。这台新超级计算机以拥有6144个英伟达A100张量核心图形处理器,将负责拼接有史以来最大的可见宇宙3D地图。

佚名 ·  2021-05-31 09:48:10
清华唐杰团队造了个“中文ai设计师”,效果超Dall·E

最近清华大学唐杰团队打造了一个“中文版Dall·E”——CogView,它可以将中文文字转图像。

晓查 ·  2021-05-31 09:45:51
中国人开始反算法:不登录、不点赞、不关注、不评论

“算法不讲武德!”越来越多年轻人发觉,生活正在被算法控制。

深燃团队 ·  2021-05-31 09:03:12
最喜欢随机森林?TensorFlow开源决策森林库TF-DF

近日,TensorFlow 开源了 TensorFlow 决策森林 (TF-DF)。TF-DF 是用于训练、服务和解释决策森林模型(包括随机森林和梯度增强树)生产方面的 SOTA 算法集合。

机器之心 ·  2021-05-28 17:18:44
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载