AWS发表一篇跨语言迁移学习技术的论文,将具有足够训练数据的语言模型,透过迁移学习转移至较稀少训练数据的语言,AWS过去曾将英语语言处理模型转移至德语,这次则是更进一步,实验将英语转移至日语。由于欧洲语言和日语之间的字符(character)无法配对,这两种语言之间的转换较为困难,为了解决这个问题,AWS将日语字符和音译的罗马字母一起当作日语系统的输入数据,AWS也执行了额外大量的实验,来找出英语模型的哪些部分可转移至日语。

AWS的实验中使用了两个公开数据集,比对罗马拼音化日语文字的转移模型和用相同数据训练从头训练的模型,在这两个数据集中,转移模型的F1 score都分别改善了5.9%和7.4%,表示模型更稳固。AWS英语和日语转换模型的目标是辨识名称实体(entity),或是辨识语句中的名称类别,像是歌曲名称、运动队伍名称或是城市名等。模型的输入数据报含词向量和字符向量两种类型的向量,这些向量是由神经网络生成,将输入的语言数据用向量或是字符串表示,这些向量投射到多维度的空间后,能够指出数据之间的相似度,在自然语言理解系统中,像是名称实体辨识器,通常是两个词向量相似度越高,也代表着两种有相似的语意。
而产生字符向量的网络首先会将字词拆分城多个组件,像是两个字母、三个字母等,字符向量空间的相近度能够显示字词子组件的相似度,字符向量通常能够作为词向量有用的补充,因为字符向量可以使机器学习系统,针对不熟悉字词的意义,根据字根、前缀和字尾产生的猜测。在AWS的语言模型中,每个输入词的字符都会分别送入双向长短期循环神经网络(bi-LSTM)中,该网络会依序处理输入数据,因此每一个输出都能够反应之前的输入和输出数据,接着,AWS将该网络输出的字符向量和词向量,一起放入另一个双向长短期循环神经网络中,这个网络按照顺序处理输入语句的单词,产生一个丰富的向量表示输出,因此输出够找出每个输入单词的字根、词缀(affix)、本意和语句中的上下文信息。最后再将该输出数据放到另一个分类实体名称的网络中。更多人工智能详细信息:http://www.cafes.org.tw/info.asp