10大类、142条数据源,中文NLP数据集线上搜索开放

作者: 思、杜伟 2020-03-02 11:50:05

 有了这个开源项目,再也不用担心找不到好用的中文 NLP 数据集,142 条数据集,总有适合你的那一款。

10大类、142条数据源,中文NLP数据集线上搜索开放

中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html

在学习 NLP 的这条不归路上,我们总会发现大多数先进算法与优质示例代码都是用英文数据集。而当我们满怀希望地把模型迁移到中文世界时,缺少公开的优质数据集简直就是天堑。比如说最简单的语言模型与词嵌入模型,只需要一段段自然的中文文本就行了,然而实际上我们会发现好用的公开大型语料真的很少。

我们需要在 GitHub 等平台上找收集中文 NLP 数据集的各种项目,再根据需求进行选择。值得注意的是,很多国内中文数据集已经非常老了,它们的使用会比较麻烦,这时候就需要我们自行判断与试错了。

不过在本文中,我们将介绍一项新的中文 NLP 数据搜索项目,它可能是目前最全的中文 NLP 数据集信息收集项目。该项目收集了一百多条中文 NLP 数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。

10大类、142条数据源,中文NLP数据集线上搜索开放

每一条搜索结果都会展示数据集的基本信息、访问链接等关键信息,能帮助我们快速筛选数据集。因为每一个领域都能找到非常多的同类数据集,因此这些简述非常有意义。

10大类、142条数据源,中文NLP数据集线上搜索开放

如果读者想看看到底有哪些数据集,可以直接查看该搜索项目的 GitHub 地址,所有数据集的信息都在上面。

这非常全的中文 NLP 数据集合

本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。

具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch

10大类、142条数据源,中文NLP数据集线上搜索开放

本项目中文 NLP 数据集分类。

但由于整个项目包含的数据集种类很多,机器之心只对其中的情感分析和文本分类数据集进行以下简要介绍。

情感分析

作为自然语言处理(NLP)的一种常见应用,情感分析特别适用于以提取文本情感内容为目的的分类方法中。本项目中介绍了 11 个情感分析数据集来源,其中包括 NLPCC 2013/2014、Weibo Emotions Corpus、之江杯电商评论观点挖掘大赛以及 2019 搜狐校园算法大赛数据集。

10大类、142条数据源,中文NLP数据集线上搜索开放

项目中部分情感分析中文数据集详情。

文本分类

作为自然语言处理中最常用和最基础的应用,文本分类方面的数据集已经有很多。本项目中介绍了 19 个文本分类数据集来源,其中包括今日头条中文新闻(文本)分类、THUCNews 中文文本分类、2017 知乎看山杯机器学习挑战赛 以及中科大新闻分类语料库等。

10大类、142条数据源,中文NLP数据集线上搜索开放

项目中部分文本分类数据集详情。

最后,开发者也可以上传数据集信息贡献自己的力量,上传 5 个(含)以上数据集信息即可在审核通过后成为本项目的贡献者。目前似乎 142 个数据集已经很全了,但对于更多 NLP 子领域任务,还需要大家共同维护。

人工智能 机器学习 技术
上一篇:疫情缓和,开学却一拖再拖,程序模拟告诉你为什么 下一篇:麦肯锡预测|1亿国人2030年面临职业转换,全球8亿人被机器人取代
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性

纵横交错描述(CxC)数据集使用图像-文本,文本-文本和图像-图像对的语义相似性评级扩展了MS-COCO的开发和测试范围。

佚名 ·  15h前
机器学习项目中特征工程的5个优秀实践

当处理一个新的机器学习问题时,没有办法从一开始就知道解决方案是什么,除非各种不同的实验被尝试和测试。

deephub ·  16h前
用AI和自动化技术来增强安全

随着安全威胁与数据泄露行为的增加,企业正积极寻求新型IT运营平台以实现基于AI技术的网络防御体系。

佚名 ·  17h前
人工智能来袭,你做好准备了吗

前几天我的工行APP告诉我,说我的银行卡预留了两个手机号,让我去当地的工行改一下。到了银行,眼前的变化让我大吃一惊。

黑暗塑造灵魂 ·  18h前
十八般武艺样样精通,消防无人机正受到青睐!

如今,无人机正成为消防领域新的“帮手”,受到青睐!火灾所带来的危害不言而喻,而火灾的防治往往并不容易

林中易木 ·  18h前
MIT开发能“感知”隐藏物体的机器人:“我们正试图赋予机器人超人的感知力”

麻省理工学院的研究人员开发了一种机器人,它将视觉与射频(RF)传感结合起来,以寻找和抓取物体,即使它们被隐藏在视野之外。

佚名 ·  20h前
类似大脑的新型计算设备可模拟人类学习:论文已发表在《自然通讯》杂志

借助一系列突触晶体管,新的神经形态电路可以模拟联想学习。研究人员已开发出了一种类似大脑的计算设备,它能够通过联想来学习。

小云 ·  21h前
神奇的人脸识别:为啥眼熟之人戴口罩、墨镜还是能认出来?

佚名 ·  22h前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载