4月2日消息,据外媒报道,亚马逊今天表示,将在2019年9月发布超过400万字、针对自然语言处理研究的数据样本。这个样本名为“主题聊天数据集”(Topical Chat),其中包括众包人类对话语料库,并将其提供给参加年度Alexa Prize Socialbot大挑战的团队。

  亚马逊称,主题聊天数据集由21万多个主题会话,超过410万字,这使其成为世界上最大的公共会话和知识数据集之一。语料库的每个会话和会话转向都与提供给人群工作者的知识相关联,并且所涉及的知识都是从与实体相关各种“非结构化”和“松散结构”的文本资源中收集的。

  亚马逊资深首席科学家迪利克·哈卡尼-图尔(Dilek Hakkani-Tur)在博文中明确表示,这些会话都不是与Alexa客户互动的结果。

  哈卡尼-图尔说:“这些数据的收集目标是使下一步研究能够在基于知识的神经反应生成系统中进行,解决其他公开数据集没有解决的自然对话中存在的困难挑战。这将使研究人员能够专注于人类在主题之间的转换、知识的选择与丰富,以及将事实和意见纳入对话,并支持出版高质量、可重复的研究。”

  亚马逊表示,竞争Alexa Prize Socialbot大奖的团队将可以访问扩展版本的数据集,其名称为“扩展主题聊天数据集”,其中包括正在进行的收集和标注的结果。

  在今天的声明发布大约六个月前,亚马逊就曾开放过一个数据集,可以用来训练AI模型,以识别不同语言和脚本类型的名称。它被称为“多语种命名实体音译系统”,包括近40万个名字,语言包括摘自维基百科的阿拉伯语、英语、希伯来语、日语片假名和俄语。