AWS发表改善Alexa语音和声音辨识的两篇论文,皆是透过机器学习技术,来处理Alexa语音识别的问题。AWS第一个介绍的方法,是针对Alexa接收到来自电子媒体的干扰问题,像是电视或是收音机的声音,AWS团队开发出一套能够更好地辨识媒体音频的方法,且能够长时间持续检查音频,帮助Alexa过滤掉非用户语音的背景声音讯号。

另一个方法则是利用外部数据集,透过半监督式学习法,来训练出语音事件侦测模型,半监督式学习法是采用小型已标注的训练数据集,来对照到大型未标注的数据集,尤其是,AWS团队是用Tri-training的模式,也就是用三种不同的模型来训练同一个任务,但是使用些微不同的数据集,再用最终输出的结果,来校正半监督式学习常见的问题,因此,模型的错误最终会变改正。AWS的媒体侦测系统是建立在对声音特征的观察,不管电子媒体声音的内容,系统能够辨识出所有常见的媒体声音,AWS的网络模型设计就是试图要从特定的训练样本中萃取出声音特征,首先,先透过卷积式神经网络(CNN)作为特征萃取器,接着,就像许多在口语理解领域的机器学习模型,AWS也是用递归神经网络(RNN),该网络能够有序地进程列输入,而每一层网络的输出都会影响着下一层的输入。