随着语音助理的技能越来越多样化,要处理的任务也越来越复杂,Amazon为了能让Alexa在更短的时间内,处理并完成复杂的任务,AmazonAlexa AI团队近日在美国AI协会举办的第33届研讨会中,发表了一篇关于压缩神经网络的论文,透过压缩词向量表的新方法,在尽可能不影响准确度的情况下,将神经网络缩小90%,使Alexa在处理复杂的任务时,也能在毫秒内给予正确的回应,也让Alexa能够持续扩展新技能。语音助理Alexa目前支持超过70,000种第三方的技能,每个月以数个技能在增加,因此,压缩神经网络是必要的方法,来使这些技能的自然语言理解模型,更有效地储存,在自然语言理解应用中,大多数的神经网络的大小都是来自于巨大的查询表(lookup table),该查询表会用词向量(word embedding),记录输入文字的相互关联性,词向量通常是一个包含300个数的庞大序列,来抓取字词意义的信息,而神经网络被应用于许多AI系统中,但是其一特性就是规模非常大,也意味着执行速度缓慢,对于像是Alexa这种需要实时处理口语请求并给予回复的语音助理系统,是个很大的问题。

在Amazon研究团队的实验中,Amazon利用一套预先训练的词向量Glove,Glove与其他热门的词向量一样,用大量的训练数据与词语进行比对,在一个300维度空间中,以一个点表示该词语,相似的词会被归类在同一群中,通常自然语言理解系统会利用这种预先训练的词向量,因为可以产生跨概念的相关词汇,举例来说,能够让语音助理透过关联性,理解较为少见的指令。过去自然语言理解研究员都会用包含10万个词的庞大查询表,将词向量表的300维度缩减为30,并用较小的词向量作为自然语言理解系统的输入数据,Amazon研究团队则是将词向量表整合至神经网络,如此一来,就能够用特定任务的训练数据,来优化词向量。为了降低词向量的维度,Amazon采用奇异值分解(singular-value decomposition),在较高维度的空间产生较低维度的投影,该方法类似于在三维空间中针对物体产生二维投影,在其中一项实验中,Amazon研究团队开发的系统能够将神经网络缩小90%,同时网络模型的准确度只有减少不到1%,在相同的压缩率之下,过去研究最佳的结果是准确度约下降3.5%。部分信息参考:http://www.cafes.org.tw/info.asp