Alexa是如何区别用户和电视广告中呼喊Alexa的声音?AWS近日在自家部落格中公开这个谜题,AWS语音研究团队收集了数千个广告中提及Alexa的录音档,透过声学指纹辨识技术,让Alexa学会忽视这些广告中提及Alexa的声音,防止Alexa对电视中的广告或是恶作剧做出回应。

AWS的方法是用典型的声学指纹算法,来配对预先输入的语音录音文件,该算法是针对语音失真和干扰的问题所设计,就像那些电视主持人讲的话、家中的环境音和麦克风的杂音, 若接收到的音文件经过系统辨识后,找到匹配项,系统则会忽略传入的请求。为了能够准确的辨识出请求,AWS建立了多层的语音声纹辨识系统,分别在多个阶段建置辨识功能,首先在设备端上,大多数的Echo设备收到Alexa这个唤醒词后,会先与广告中提及Alexa的数据集进行比对,来检查请求是否来自于广告,但是由于设备CPU的限制,AWS只能在设备端检查电视上广告的音文件。
接着,AWS云端则会以两种方式检查每个Alexa唤醒词的请求,分别是来自于已知的媒体和未知的媒体,系统会用已知媒体的大量声纹数据,针对请求的唤醒词再次检验,第二种方式则是将在同一时间,2个以上不同用户的装置收到一样指令的情况,认定为媒体事件。理想上,Echo装置能够用这些预存的声纹辨识出来自媒体的音文件,不会唤醒Alexa,但是若Alexa真的被媒体的声音唤醒,在云端辨识认为为媒体事件后,装置会快速且默默地关闭。除了持续追踪媒体新增的Alexa唤醒词,来更新AWS的声纹比对数据库之外,AWS研究团队正在改善声纹辨识系统的准确率和效率,此外,AWS还正在研究可以用在区分媒体和人类声音问题的相关技术,像是机器学习技术。内文来源至:乐爱公益平台 http://pctchp.org.tw/