MIT 推出机器翻译新算法,破译已消失的古语言

作者: 白开水不加糖 2020-10-27 14:34:42

麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的研究人员最近开发出了一种新的计算机算法,可以帮助语言学家自动破译历史上消失已久失的古语言。

官方指出,该系统能够自动破译已消失的语言,且无需对这一语言与其他语言的关系有深入的了解。他们还表明,该系统自身就可以确定语言之间的关系,并可以用它来证实最近的一项表明 Iberian 语言实际上与 Basque 语言无关的学术研究。

CSAIL 方面称,最近的研究表明,大多数曾经存在过的语言已经不再被使用。其中有数十种已灭绝语言也已被认为是“未破译”的语言。这就意味着,大众对它们的语法(grammar)、词汇(vocabulary)或句法(syntax)都了解不足,也无法理解其文本的意思。

而研究这些“未破译”的语言,除了是出于学术上的好奇心。还在于,不理解语言我们就会错过与讲这些语言的人有关的一整套知识体系。然而不幸的是,大多数灭绝语言的相关记录都非常的少,导致科学家无法使用谷歌翻译之类的机器翻译工具或 AI 算法来对其进行解密。

因此,此次 CSAIL 团队推出这一新算法的最终目的就是,旨在只用几千个单词,就可以破译语言学家几十年来难以理解的失传语言。

本次研究由 MIT 教授 Regina Barzilay 牵头,依赖于基于历史语言学(historical linguistics)见解的几项原则。例如,语言通常仅以某些可预测的方式发展。具体表现为:一种给定的语言很少会直接添加或删除整个音节,但是很可能会发生某些近似发音的替换。像母语中带有“p”发音的单词就可能会在其后代演变中变为“b”,但是由于明显的发音差异,变为“k”的可能性则较小。

通过整合这些原则和其他语言学约束,Barzilay 和 MIT 博士生 Jiaming Luo 开发了一种解密算法,该算法可以处理可能的转换的巨大空间以及输入中引导信号的稀缺性。该算法学习将语言声音嵌入多维空间,在该多维空间中,相应矢量之间的距离反映了不同发音的差异。这种设计使他们能够捕获语言变化的相关模式,并将其表达为计算约束(computational constraints)。生成的模型可以将古代语言中的单词进行细分,并将其映射到相关语言中的对应单词。

该项目建立在 Barzilay 和 Luo 去年写的一篇论文的基础上, 这篇论文解密了已灭绝的 Ugaritic 和 Linear B 语言,后者以前需要数十年的时间才能被人类解码。但是,两个项目之间的主要区别在于,该团队此前就已经知道这些语言分别与希伯来语和希腊语的早期形式有关。

新算法可以推断语言之间的关系,这是语言解密中的最大挑战之一。该算法可以评估两种语言之间的相似度,当对已知语言进行测试时,它甚至可以准确地识别出该语言属于哪个语系(language families)。不仅如此,算法生成的模型可以将古语言中的单词进行细分,并将其一一映射到“相关”语言中的对应单词上去。

在未来的工作中,该团队希望扩展到将文本与已知语言的相关单词相关联的范围之外,这种方法被称为“基于同源的破译方法”。其表示,“例如,我们可以识别文本中涉及到的所有人或地点的信息,然后可以根据已知的历史证据对其进行进一步的调查。这些实体识别(entity recognition)方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性。但是关键的研究问题在于,在没有任何古代语言训练数据的情况下,这项任务是否可行? ”

本文转自OSCHINA。

本文标题:MIT 推出机器翻译新算法,破译已消失的古语言

本文地址:https://www.oschina.net/news/119481/mit-translating-lost-languages-machine-learning

算法 MIT 机器翻译
上一篇:AI下一站:精细化生活场景的智能时代 下一篇:为非专业人员量身打造,斯坦福教授一页纸定义AI核心概念
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

2 张图片就能“算”出个视频,惊呆 Reddit 网友

只给AI两张图片,就能得到高帧率动态视频?不错,这又是视频插帧算法的功劳。

鱼羊 萧箫 ·  4天前
皱眉细节完美复刻,阿尔伯塔大学团队的项目生成超逼真的肖像画

深度卷积神经网络已经被广泛用于显著目标检测,并获得了 SOTA 的性能。在 CVPR 2019 的一篇论文中,来自加拿大阿尔伯塔大学的研究者曾提出了边界感知显著目标检测网络 BASNet,并衍生出了一系列流行的工具。

佚名 ·  4天前
2021年码农应该了解的所有机器学习算法

随着我对机器学习的了解的增加,机器学习算法的数量也在增加! 本文将介绍数据科学界常用的机器学习算法。

闻数起舞 ·  2020-11-23 09:26:22
激发校园创新火花 2020 DIGIX全球校园AI算法精英大赛圆满收官

11月13日-14日,由江苏省人工智能学会、华为终端云服务、华为南京研究所共同举办的2020 DIGIX全球校园AI算法精英大赛在华为南京研究所圆满收官。

佚名 ·  2020-11-16 13:32:00
人工智能永远滴神:你准备好崇拜它了吗?

世界国际象棋冠军赛始于1886年。百年后,IBM研发出的超级计算机“深蓝”(Deep Blue),成功击败了世界国际象棋冠军加里·卡斯帕罗夫。这对科技和人工智能来说,是个短暂而又难忘的里程碑。

读芯术 ·  2020-11-14 15:43:35
数据科学面试中应了解的十种机器学习概念

如您所知,数据科学和机器学习必须提供无穷无尽的信息和知识。 话虽如此,大多数公司都只测试少数核心思想。 这是因为这十个概念是更复杂的思想和概念的基础。

闻数起舞 ·  2020-11-08 13:46:18
数字营销:AI如何“看透”人类行为模式?

人工智能在市场营销领域取得的成功,揭示了人类的一些思维和行为模式,这些模式可以转化为其他应用程序。

读芯术 ·  2020-11-05 17:26:56
技术|轻量级人脸检测算法实现大盘点

本文总结了近年轻量级人脸检测算法的开源实现,其中不少已经成为开源社区的明星项目。

机器人创新生态 ·  2020-11-02 11:24:52
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载