1400 小时数据,Common Voice 成最大开源人类语音数据集

作者: h4cd 2019-03-05 10:07:33

 Mozilla 近日发布了其开源语音识别数据集项目 Common Voice 的***版本,并宣布其已成为当前全球***的人类语音数据集。

Common Voice 是一个旨在创建开源语音识别数据集的项目,于 2017 年 6 月发布,它邀请来自世界各地的志愿者通过网络和移动应用程序,用他们的声音记录文本片段。Mozilla 官方表示,目前 Common Voice 数据集覆盖了 18 种不同的语言,累计有超过 42000 名贡献者录制了近 1400 小时的语音数据。

关于语音质量,Common Voice 除了语音多样性高,还可选地收集了收录者的一些具体语音信息,包括年龄、性别和口音等元数据,这可以为训练语音引擎提供强有力的支持。

数据集下载地址:https://voice.mozilla.org/data

业内普遍认为语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别技术在不断突破,通过语音助手如 Alexa、Google Assistant、Siri 和 Cortana,各公司将收集到的用户语音数据归为公司自己所有,这些数据的价值或许目前很难被外界看出来,但是在信息化高度发达,特别是今天这样一个大数据和人工智能时代,为开发机器学习模型提供语音数据集怎么看都是一件有深远意义的事,这些语音数据的意义会慢慢体现。而最终当它们的价值逐渐显现,人们会发现在这背后亚马逊、谷歌、苹果和微软等公司已经牢牢锁住了语音技术的命门,主导了这场语音市场之争。

Common Voice 项目就是为了避免这样的事情而诞生的,它的目的是将收集到的语音数据集开源给公众,使得任何人都可以自由使用这些数据集来将语音识别技术智能地构建到各种应用程序和服务中。

开源 技术 数据
上一篇:周鸿?:人工智能有很多根安全软肋 下一篇:互联网科技企业家两会建言,都在关注哪些方面?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

详解人工智能十大经典应用领域及其技术原理

本文通过案例分门别类地深入探讨人工智能的实际应用。案例甚多,此处所列举的仅是九牛一毛。本该按行业或业务对这些案例进行分类,但相反我选择按在行业或业务中最可能应用的顺序来分类。

华章科技 ·  2天前
为什么AI没能让人类失业?

我们听了这么久有关「AI取代设计师」、「AI取代写作者」、「AI取代画家」、「AI取代司机」……的论调。然而时至今日,我们发现实际上,目前还没有一个职业「真正」被取代。

佚名 ·  2020-05-28 11:25:55
AI又一次打败了人类:仅凭一张自拍照片辨别个人性格

一项新研究表明,人工智能(AI)可在“仅凭一张自拍照片辨别个人性格”这件事上再次打败人类。与人类相比,机器能够更好地识别一种特征,通过分析人物面孔来确定物种不同的性格特质。

佚名 ·  2020-05-27 10:48:34
化身阿凡达,国外小哥开源 AI 实时变脸工具 Avatarify

疫情期间,很多人都在用 Zoom 和 Skype 等软件进行视频会议。国外一位开发小哥觉得这样开会太无聊,于是基于 first-order-model 开发了一个能够把别人的照片套在自己脸上的“变脸”软件 Avatarify,并将其开源。

OSC神秘老司机 ·  2020-05-27 09:56:41
5个杰出的商业机器学习用例

现在是仔细研究ML的好时机,看看您如何将其应用到您的业务中。下面是企业将ML应用到产品和服务创新的5种方式。

物联网IoT996 ·  2020-05-21 21:14:38
如何使用支持向量机学习非线性数据集

什么是支持向量机呢?支持向量机是监督机器学习模型,可对数据进行分类分析。实际上,支持向量机算法是寻找能将实例进行分离的优秀超平面的过程。

不靠谱的猫 ·  2020-05-21 09:02:37
华为突破封锁,对标谷歌Dropout专利,开源自研算法Disout

美国持续封锁,华为的技术自研,已经深入到了AI底层算法层面上,并开始将研究成果面向业界开源。

乾明 金磊 ·  2020-05-20 10:25:43
机器学习的工作原理

机器学习是一种数据分析技术,可在数据集上构建预测模型,以提供有用的答案,这些答案可用于制定重要决策。 它利用统计概念和数学方法通过python和R等编码语言处理大数据。有多种机器学习技术。 但是,本文将介绍回归和分类。

闻数起舞 ·  2020-05-19 09:11:20
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载