谷歌发布TyDi QA语料库,涵盖11种不同类型语言

作者: Jonathan Clark 2020-02-24 16:17:04

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi QA,这是一个涵盖了 11 种不同类型语言的问答语料库。

问答技术帮助人们在日常生活中遇到问题时,如“乌贼的墨汁可以安全食用吗?”之类的问题,用户可以通过询问语音助理或键入搜索内容并期望 得到答案。去年,我们向研究社区发布了英语版的 自然问题 数据集,以提供反映真实用户需求的 挑战。然而,世界上还有成千上万不同的语言,其中许多语言使用非常不同的方法来构造语义。例如,在英语中,一个物体(“book”)和多个物体(“books”);而在阿拉伯语中,也有第三种形式表示,除了单数(“كتاب”,kitab)或复数(“كتب”, kutub)之外,还有表示两个物体 (“كتابان”,kitaban) 。此外,有一些语言,如日语,在单词之间并不使用空格。要创建这样一种机器学习系统,能够理解语言表达意义的多种方式,真不啻为一项挑战,而训练这样的系统,需要从它们将应用到的不同语言中获得样本。

为了鼓励对多语言问答技术的研究,今天,我们发布了 TyDi QA,这是一个涵盖了 11 种不同类型语言的问答语料库。在我们的论文《TyDi QA:不同类型语言中信息查询问答系统的基准》(TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages)中描述,我们的语料库的灵感来自于 类型多样性,这是一种概念,即不同的语言以不同的结构方式来表达意义。因为我们为这个语料库选择了一组在类型上彼此相距较远的语言,我们期望,在这个数据集上表现良好的模型,能够推广到世界上的大量语言。

类型多样的语言集

TyDi QA 包括了来自 11 种语言的超过 200000 个问答对,代表了一系列不同的语言现象和数据挑战。其中许多语言使用的是非拉丁字母,如阿拉伯语、孟加拉语、韩语、俄语、泰卢固语(Telugu)和泰语。还有一些单词的构成方式很复杂,如阿拉伯语、芬兰语、印尼语、斯瓦希里语(Kiswahili)、俄语等。日语使用四种字母,如:

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

由四种颜色表示,而韩文字母本身具有很强的组合型。这些语言的范围也很广,从网上有很多可用数据(如英语和阿拉伯语)到只有很少的数据(如孟加拉语和斯瓦希里语)。我们期望,能够应对这些挑战的系统将在许多语言中取得成功。

创建真实数据

研究社区使用的许多早期 QA 数据集都是这样创建的:首先给人们一篇文章,然后要求他们根据阅读文章的内容写出问题来创建。然而,由于人们在写下每个问题时都能够看到答案,这种方法产生的问题往往包含与答案相同的单词。因此,针对这类数据进行训练的机器学习算法更倾向于单词匹配,而忽略了满足用户需求所需的更细微的答案。

为了构建一个更自然的数据集,我们从那些想要得到答案但还不知道答案的人那里收集了问题。为了激发问题的灵感,我们向人们展示了维基百科(Wikipedia)用他们的母语写成的一段有趣的内容。然后,我们让他们提一个问题,任何问题都可以,只要我给他们看的内容没有回答,并且他们实际上想知道答案。这类似于当你在大街上闲逛时,你的好奇心可能会引发关于你所看到的有趣事物的问题。我们鼓励他们在提出问题时发挥想象力。比如,一篇关于冰的文章,会让你想到夏天的冰棒吗?棒极了!问问是谁发明了冰棒。重要的是,问题是直接用某种语言写就的,而不是翻译,因此许多问题不同于那些在英语版语料库中看到的问题。孟加拉语中有一个问题:“সফেদা ফল খেতে কেমন?”(人心果(Sapodilla)是什么味道?)从来没听说过人心果吗?这可能是因为人心果在印度比美国更常见。

对于这些问题中的每一个,我们在 Google 上用适当的语言搜索最匹配的维基百科的文章,并要求提问者在文章中查找并高亮显示答案。虽然我们预料到当提问者没有找到答案时,问题和答案之间会有一些有趣的分歧,但结合世界语言中惊人的广泛语言现象,我们发现情况甚至更为复杂。

例如,在芬兰语中,有一些有趣的例子,在问题和回答中,day 和 week 这两个词的表达方式就非常不同。要成功从整个维基百科文章中选择这个答案句子,系统需要能够识别出芬兰语词汇 viikonpäivät、seitsenpäiväinen 和 viikko 之间的关系。

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

作为研究社区共同取得进展

我们希望,这个数据集能够推动研究社区进行创新,为世界各地的用户创建更有用的问答系统。为了跟踪社区的进展,我们建立了一个 排行榜,参与者可以在其上评估他们的机器学习系统的质量,我们还开源了一个使用该数据集的 问答系统。要查看排行榜并了解更多信息,请访问挑战网站。

作者介绍:

Jonathan Clark,Google Research 研究科学家。

人工智能 机器学习 技术
上一篇:机器学习所需的工程量未来会大大减少 下一篇:过度防范?莫斯科公交司机接令人工识别中国乘客,人脸识别系统也被授权启用
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

中国AI专利申请量占全球74%,腾讯、百度、OPPO前五

报告显示,过去十年,全球人工智能专利申请集中在中国、美国、日本、韩国。其中,中国和美国处于领先地位。中国专利申请量为389571,位居世界第一,占全球总量的74.7%,是排名第二的美国的8.2 倍。

南方都市报 ·  1天前
AI一键去纹身,几秒钟让你看见明星「真面目」

来自印度的机器学习研究者 Vijish Madhavan 最近开源的一个机器学习工具 SkinDeep 满足了我们的需求。

机器之心 ·  1天前
人工智能进军“古玩鉴定”,人类职业再遭冲击?

近两年,人工智能的风头虽然偶被5G、自动驾驶等所盖过,但其发展和热度并未因此受到影响。

林中易木 ·  1天前
人脸识别技术的优缺点

无论在哪里使用,面部识别都可能会吸引很多人的注意。这就是为什么我们整理了一份关于面部识别的利弊清单,这样你就可以了解这个有争议的话题。

Cassie ·  1天前
人工智能如何为临床试验提供无摩擦的患者匹配

这场疫情凸显了医疗保健行业一些效率低下的方面,为了应对这些危机,一些医疗机构已经采用与大数据相关的技术,例如人工智能技术、自然语言处理、数据管理等。

Kirk Junker ·  1天前
让静态知识动起来:从知识图谱到事理图谱

传统的知识图谱回答的是“是什么”的问题,而以“事”为核心的事理图谱回答的是“为什么”的问题。目前,绝大多数知识图谱主要以实体(特别是人名)为基础,面向事件知识图谱研究的语料构建和研究方法还处于探索阶段。

AI科技评论 ·  1天前
知识图谱是否是自然语言处理的未来?

2021年了,不少当年如日中天技术到今天早已无人问津,而知识图谱这个AI界的大IP最火的时候应该是18,19年,彼时上到头部大厂下到明星创业公司都在PR自己图谱+NLP布局能够赋予AI认知能力。到了当下这个AI总体降温的时间节点,我们是时候冷静思考知识图谱的未来到底该何去何从了。

Luke ·  1天前
人工智能在未来将要经历的七个阶段

自2000年以来,全球对人工智能的投资增长了6倍。据统计,到2025年,全球AI市场预计将增长到600亿美元。

SENSORO升哲 ·  1天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载