MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

作者: 郭一璞 2019-07-09 10:01:14

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

漫漫尘埃下,掩藏了许多曾经辉煌灿烂古代文明,但我们现在却无法清晰地知道,这些地方究竟发生了什么。

搞懂这些历史的***方式,就是找到他们的文字记载。However,记载文字的石碑可以被考古学家们挖出来,但这些古文字究竟啥意思,现代的人们看不懂,需要语言学家们耗尽青春来推测。

现在,MIT CSAIL和谷歌大脑的研究者出手了,他们用机器学习破译了乌加里特文线性文字B

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

△ 乌加里特王宫

乌加里特文,Ugaritic,是一种楔形文字,属于闪米特语族。从字面上来看,就知道它是一个叫做乌加里特(Ugarit)的文明使用的语言,这个文明位于当今地中海沿岸的叙利亚,在公元前6000年前后就初现踪迹,在公元前1190年前后灭亡。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

△ 乌加里特文

线性文字B,Linear B,由一种人类还没有破译出来的线性文字A演化而来,主要存活于公元前1500年到公元前1200年的克里特岛和希腊南部,是希腊语的一种古代书写形式。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

△ 线性文字B

研究者们利用同一语族内不同语言之间的联系,用机器学习的方法来破译这两种失传的语言,这是破译古代语言的新方法,也将对罗曼语族的语言学研究有巨大的影响和提升。

这个方法让许多人惊叹:

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

简直是现代版的罗塞塔石碑!

PS,罗塞塔石碑是一块用3种语言写了同一个内容的石碑,帮助语言学家们读懂古文字。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

希望能先把动物和植物的语言破译了,可以发现打开新世界的大门。

人类语言总相通

这项研究的核心方法,是借助人类语言的相似性。

比如,知乎用户@拉队短 在介绍欧洲语言相似性的时候,举了这么个栗子:

句子“那是六月末潮湿阴沉的一个夏日。”

英语:It was a humid, grey summer day at the end of June.

丹麦语:Det var en fugtig, grå sommerdag i slutningen af juni.

瑞典语:Det var en fuktig, grå sommardag i slutet av juni.

挪威语:Det var en fuktig, grå sommerdag i slutten av juni.

冰岛语:Það var rakur, grár sumardagur í lok júní.

看,长得差不多嘛,毕竟同属印欧语系日耳曼语族,单词的分布位置、句子的结构都很相似,如果你能看懂一种语言,就能大致猜测和它“血缘”关系近的另一种语言。

模型训练

为了破解这两种文字,研究者们提出了一个基于字符的seq2seq模型。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

模型主要包含通用字符嵌入、剩余连接、单调排列正则化几个部分。

其中,线性文字B的字母和希腊文需要进行对应。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

之后,借助神经解密算法,在具有不同语言特征的多种语言中提供强大的性能。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

你懂的语言,和你不懂的语言

在算法模型的基础之下,需要的语料库除了待破解的乌加里特文和线性文字B,还需要一些现在的人类能看懂的语言。

研究团队选择了罗曼语族的数据库,包含意大利语、西班牙语和葡萄牙语三种语言的同源语音转录,需要对它们进行同源检测。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

因此,数据集就用到上面这些,Symbols指的是语言中的字符,Token则是语言学中类似于单词的存在。

准确率

运行成果还不错,乌加里特文在无噪声条件下优于现有方法3.1%,在有噪声条件下优于现在的贝叶斯方法5.5%。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

而线性文字B,在无噪声条件下准确率高达84.7%,在更具挑战性的LinearB名称数据集中达到67.3%的准确度。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

在罗曼语族同源识别任务中,西班牙语准确度提升3.4%,葡萄牙语提升1.6%。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

线性文字B的祖先,线性文字A还没有被人类破译,它被誉为考古界圣杯。

未来,在这项研究起作用的情况下,或许可以像借助罗曼语族三种语言的数据库一样,直接用机器借助其他已知的人类语言,实现暴力破解。

想破脑壳的语言学家们,可以把工作重心放到别的事情上了。

作者介绍

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

这项研究的一作Jiaming Luo,正在MIT CSAIL读博,专注NLP研究,此前他也曾在北大从事情绪分析方面的研究。

MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”

Luo同学的导师,也是这项研究的第三位作者Regina Barzilay,她是MIT CSAIL的教授,2017曾因NLP方面的研究获得麦克阿瑟奖金,除了NLP之外,她还研究深度学习在化学和肿瘤学方面的应用。

传送门

论文:

Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B

Jiaming Luo, Yuan Cao, Regina Barzilay

https://arxiv.org/abs/1906.06718

代码及数据集:

https://github.com/j-luo93/NeuroDecipher

AI 数据 人工智能
上一篇:2019年超酷的10家机器人初创公司 下一篇:能生成Deepfake也能诊断癌症,GAN与恶的距离
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载