小时候看特务电影时,间谍们往往有一项必备的技能,就是隔着几百公尺远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆,导致如今看什么语音识别技术都觉得没在没什么了不起——都说出声音了你才听懂,算什么AI好汉。不过最近一项专利申请表明,微软正在向间谍学习,推出了无声语音识别技术。当AI也能像特务一样,无声之中辩识人言,我们的世界究竟会有什么不同?除去唇语辨识,AI还有什么方式悄悄听懂你的话?

说起无声语音识别,可能很多人第一反应就是复制人类的方式,利用图像辨识进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久,但是辨识的准确率一直不算高。DeepMind曾在2016年做过测试,经过1万小时的新闻影片训练,AI唇语准确率达到了46.8%。中国有一家企业曾经提供过相关数据:在对中文新闻影片的辨识中,准确率达到了70%。而搜狗所推出的驾驶场景下的唇语辨识,因为涉及到的词汇量很少,准确率能够达到90%。可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语辨识准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好,对于英文这种连音很多的语言来说,唇语辨识要跨越的门坎确实不少。

另一方面来看,唇语辨识所涉及到伦理问题实在过于严重。唇语辨识的「射程」太远,如果这种技术真的发展成熟,意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天,哪家企业公开研究这项技术,只怕是觉得自己家的公关部门过得太清闲。因此包括微软在内的产业和学界,都在寻找一种更精准也更隐私的无声语言辨识。目前看来,无声语音识别的技术方向可以被分为两个「派系」,一是「气宗」,另一个是「电宗」。微软所提交的专利,就是典型的「气宗」——在终端装置上加入传感器,透过感知使用者说话时的气流来判断使用者说话的内容。这种终端如同一只小型麦克风,放置在用户嘴边,使用者在说话时形成的气流会在设备中形成反射,经过训练,可以将这些气流反射的讯号和文字一一对应。

而「电宗」则更加神奇,我们知道人在说话时需要调动整个下半张脸的肌肉,不同的文字发音所调动肌肉的方式也并不相同。透过对脸部EMG(肌电)讯号的采集,来学习人类说话时脸部EMG讯号特征,并透过神经网络的训练将EMG讯号和文字对应起来。可以看出这两种无声语音识别都有一个共同的特点,那就是自主性和私密性。不管是EMG讯号采集还是气流采集,都需要在讲话者身上佩戴好设备,而不是像图像技术一样,能够在远程且讲话者不知情的情况下进行采集分析。

无声语音识别变成真‧气功?
不论是气宗还是电宗,这些无声语音识别技术都面临着同样的问题——既然要使用者把话说出来才能进行辨识,那为什么不直接应用语音识别来进行文字转换和翻译,非要弄一些和「气功」一样没有切实应用场景的花招?其实无声语音识别的应用,可能不像大家想象的那样广泛,它既不能以最高效的方式帮助听障人士,也不允许被应用于监听等等工作。但在一些关键场合下,无声语音识别却可以发挥出奇用。我们可以一起开动脑筋,想想在哪里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景:灾害现场、舱外探索、水下作业……
在这类场所中,人们或许为了躲避被污染的空气、或许为了呼吸氧气,都会穿上类似生化服、太空服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没办法用语音互动去控制其他设备了。同时环境情况(例如氧气不够充足)往往不允许人们以正常的声音说话,加上防护服的封闭状况会引起声音的回响,以往的有声语音识别在这种情况下很难发挥作用。

这时可以被安置在防护服内部的无声语音识别就显得很有价值,讲话者只需要做出口型就能向外界传递讯息。除此之外还有嘈杂的马路、工厂车间、机场……在这些场所中,想要让对方听清自己的声音,往往需要扯着嗓子吼。想让语音识别准确辨识,更是难上加难。这时利用无声语音识别就会轻松很多,不仅可以准确表达讯息,也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。实际上目前在欧洲一些型号的战斗机中,就因为机舱内噪音巨大、飞行员之间无法沟通,已经应用了EMG讯号无声语音识别技术。

当然,目前相比语音识别技术、甚至相比唇语语音识别,无声语音识别技术的发展阶段还很初级,应用效率也不高。实际上无声语音识别是一项典型的「美好而无用」的AI技术,它既完美体现了一系列技术的排列组合,例如EMG讯号无声语音识别所体现出的AI与神经学的结合;又在应用上极大程度的受限,即使在一些声音难以传播的场景下,也要考虑计算条件、辨识语音后讯息再传递的媒介,更不用提复杂的资料搜集工作了。但我们有理由相信,在未来AI技术越来越普及化、应用成本越来越低时,总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天,战斗机的控制也许也使用语音互动呢?更多相关内文来源至:乐爱公益平台 http://pctchp.org.tw/