AI进入无障碍时代:手语识别翻译的应用,究竟意味着什么?

作者: 脑极体 2019-05-17 11:25:26

相信在人们的印象里,AI都是一个属于“大多数”的技术门类。

所谓大多数,第一意味着相关数据量大、便于累积,适用于AI对海量数据极度依赖的特性;第二意味着应用场景广泛、便于变现回收成本,适用于AI研发的高门槛投入。

目前我们身边常常出现的人脸识别、语音交互等等,其实都符合以上这些特征。不过这并不意味着,属于“少数派”的AI是一片空白。

AI进入无障碍时代:手语识别翻译的应用,究竟意味着什么?

昨天是“全球无障碍宣传日”,我们把目光投向于那些能够消弭“少数与多数”区别的技术发展,例如服务于听障人群的手语识别,就是一个典型的例子。

你我不懂的手语,为什么AI也很难读懂?

手语是用手势比量动作,根据手势的变化模拟形象或者音节以构成的一定意思或词语,是听障人群独有的一种沟通方式。但这种沟通方式虽然能让听障人士之间彼此沟通,或让理解手语的普通人与之沟通,但仍然不能满足听障人士与普罗大众之间的交流需求。

这便意味在一些社会公共空间之中,例如政务场景或服务业场景,听障人士可能都会遇到一些不便。

而AI,恰好成为了一种解决方案。

我们在一些软件中,已经开始应用到了AI的手势识别能力,像是拍照时“比心”来触发一些AR特效。将这种对于手势的捕捉,和手势语义对应起来,不就能实现对于手语的翻译和生成了吗?

这一逻辑是正确的,可从逻辑正确到应用可行,却还隔着一段不短的路程。

首先,手语的表达有一定的特殊性,想进行捕捉并不容易。

我们知道在“比划手势”这种行为上,本来就不存在绝对的精准度,加之一些手语词汇的表达非常接近,而且手语表达通常是以句子为单位,词与词之前不会有明显的间隙。以往手势识别中利用前置摄像头捕捉的方式,基本是不可行的。

于是很多科技和团队给出的解决方案是加以外设,例如中科大和微软推出了基于Kinect的手语翻译系统,加州大学曾经推出过的手语识别手套等等就是这样。可这些外设要么便携程度低,要么造价昂贵,推广起来有很大的困难。

同时,手语表达同样也有国别性和地域性,在模型通用性上存在着困难。

手语中有“文法手语”和“自然手语”两个概念,文法手语既是通用的普通话,至于自然手语则如同方言一般,在国别、地方甚至城市之间都有着不小的差异。这也造成了手语数据收集、标注会是一项成本高、工作量大的事情。

例如亚马逊曾经提出过,对智能音箱Alex进行改造可以使其翻译出一些简单的信号。可是因为缺乏大规模的训练数据集,目前这一功能只能识别出一些简单的美国手语,停留在实验室阶段。

手语破题没有秘法,AI产业本该平权

虽然探索艰难,但科技企业们和学界还是不断在手语AI上取得成果。例如腾讯优图实验室推出的 “优图AI手语翻译机”、爱奇艺推出的AI手语主播等等,都在手语AI的应用上取得了不小的进展。

手语AI的突破可以分为两条路线,一方面是手语AI本身技术的进展,另一方面是应用场景的突破。

在手语AI技术本身上,可以分为识别模型和数据集两个解决路径。在数据集上,可以像优图一样,通过和社会相关机构以及听障人士的接触自建手语识别数据集,并且针对手语表达的地方性差异,做出表达习惯和速度上的多样性拓展。

至于识别模型上,业内也有全新的算法搭建概念,例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息,经由综合处理来提升视频识别效果,彻底摆脱其他传感器的桎梏。同时针对手语表达的整句化的现象,在视频帧的最后加入了词级信息挖掘,对特征提取器提出的信息进行核验,进一步去确定手势对词语表达边界,除了提升识别精准度以外,还能提升对自然手语中地域表达的总结能力。在此基础上,还可以算法模型中引入了上下文理解能力,以便于面对更加复杂的手语识别翻译需求。

不过技术虽然得以提升,应用场景端仍然会受到一些限制。例如手语识别可能会依赖较强大的算力,短时间内很难便携化、消费化。但完全可以通过和政府的合作,让手语识别进入一些公共服务场景。或者像爱奇艺一样,从手语生成方面入手,同样也能帮助到听障人士。

其实我们不难发现,可如果将技术拆分来看就能发现,手语AI取得的进步,并不是因为在某项基础科学上突然取得了什么惊人的突破,而是有越来越多的企业和学者在研发和数据累积上一贯长期的投入,才能解脱于以往手语语料库匮乏的困境,在算法上不断迭代。

换句话说,企业和学者们在“少数派”的AI技术中投入了几乎与“大多数”AI技术相匹配的精力与财力。对于AI产业来说,这无疑是一种平权精神。

从以人为本到科技向善:我们为何要对技术洋流的引导更加主动?

腾讯优图在手语AI方面的投入,其实也是AI产业中一种隐隐冒出势头的洋流方向。

几天以前,在福州的数字中国峰会上,马化腾首次提到了“科技向善”这一概念,提出“我们相信,科技能够造福人类;人类应该善用科技,避免滥用,杜绝恶用;科技应该努力去解决自身发展带来的社会问题。”

无独有偶,李飞飞在回归斯坦福后,就着手创办了HAI研究所(以人为本斯坦福人工智能研究所),并在今年开始担任所长。HAI的研究目标,就是推动AI技术向造福人类的方向发展,预测AI对人类生活的切实影响。

科技巨头和学界旗帜都将目光投向了同一方向,是因为人们已经开始逐渐发现AI、5G、产业数字化等等技术力量的势头之强,已经到了不得不对其加以引导甚至约束的地步。

如同上文所说,科技企业在这一波技术发展的过程中,起到了很大的促进作用,而逐利自然是企业的本能和天性,因此企业会率先投身于那些满足大多数人、应用场景广泛、研发成本相对低的技术。

这种行为本身无可厚非,但AI等等新技术带来的效率提升实在过于显著,是否会会对那些暂时无法接入新技术的领域和群体进行挤压甚至边缘化,是很多人都在思考的一个问题。

例如随着英汉日法俄等等主流语种的机器翻译能力不断增强,那些语料库不充足、应用人数更少的小语种是否会因为得不到技术赋能,而被进一步的边缘化?

同样的,当公共事务办理越来越多的被语音交互、图像识别等等AI技术替代,听障、视障群体在获取服务时会不会遇到更多麻烦?

类似的情况其实已经发生:2018年年底,联合国发布了对英国政府数字化成果的报告,结果是数据显示在英格兰,自2010年以来无家可归者增加了60%,保障住房的等待名单上有120万人,用来救济穷人的食品银行需求量增长了近四倍——因为很多贫困人群并不知道如何在互联网上申请贫困补助,甚至家里都没办法连接互联网,最终只能在贫困中越陷越深。

很多时候,即使是无恶意的技术,也可能会出现无法预测走向。我们对于科技向善的引导,或许应该更主动一些。

结束语

最后,我们不如来看看这样一组数字:

据2017年北京听力协会预估数据,我国听障人群数量约达到7200万。在全球范围内,世界卫生组织发布的最新数据显示,全世界有共计约4.66亿人患有残疾性听力损失。

——你看,这世界上所谓“大多数”和“少数派”本来就是一个相对性的概念,并不存在黑白鲜明的区隔。尤其对于AI这种善于模仿人类能力的技术来说,它的存在本可以推倒阻碍各个群体沟通交流的空气壁,而不是让这种趋势愈演愈烈。我们关于利用技术搭建美好世界的目标,既然可以不抛下任何一个人,就不该抛下任何一个人。

好在从服务于听障人群的手语识别翻译上,我们已经能看到这种趋势走向——精于计算的大脑不是AI唯一的模拟对象,还有人类的炽热心脏。我们相信,在学界和巨头的引导之下,未来会有越来越多的企业关注到无障碍AI技术的发展,不断的打破各种隔膜阻碍。

爱虽沉默,也有回响。

AI虽沉默,也有回响。

AI 手语 手语识别翻译
上一篇:将在10年内改变你的生活的五项新技术 下一篇:不懂卷积神经网络?别怕,看完这几张萌图你就明白了!
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI核心难点之一:情感分析的常见类型与挑战

情感分析或情感人工智能,在商业应用中通常被称为意见挖掘,是自然语言处理(NLP)的一个非常流行的应用。文本处理是该技术最大的分支,但并不是唯一的分支。情绪AI有三种类型及其组合。

Veronika Vartanova ·  2天前
机器学习帮你预测电池寿命:精确了解电池还能充几次

电池寿命的确定,是移动硬件发展的重要一环,但是由于电池电化学反应的不确定性以及不同的使用环境和习惯,电池寿命变成了一门玄学。不过柏林的三位小伙伴,利用Tensorflow,在原有的预测体系基础上。更近一步,完成了电池的全寿命预测。

靓科技解读 ·  2天前
专家认为对“人工智能+教育”应持审慎态度

随着人工智能不断发展,人脸识别技术被越来越多地应用于校园中。据了解,一所知名大学2019级新生“刷脸”就能瞬间完成报到程序,系统是这所学校的学生研发的,学生对着摄像头,人脸识别系统就开始进行比对,眨眼间就能完成扫描,整个报到注册手续几乎不到一秒钟。

新华网客户端 ·  3天前
人脸识别有风险,美国全面禁止,可为什么中国却全面推广?

对于大多数人而言,最先接触的就是指纹识别,对指纹识别的了解程度也相对比较深一些,然而随着科技的不断发展,人脸识别也越来越普及,所谓的人脸识别就是基于人的脸部特征信息进行身份识别的一种生物识别技术,用摄像头或摄像机采集含有人脸的图像或视频,并自动在图像中检测和跟踪人脸,对其进行一系列的相关技术,最后进行辨别完成自己想要完成的项目。

测评前线说 ·  3天前
AI的时代,你的职业还在吗?

目前人工智能(Artificial Intelligence,简称AI)的技术到底发展到啥情况了?如果未来AI在我们社会上全面应用之后,会对咱们的生活会带来多大的帮助?

奎哥 ·  4天前
人工智能改善教育的32种方式

在人工智能赋能教育的实践探索上,国外已经有了许多工具和应用,总结起来,可以分为改进教学和改进管理两个大的方面,共32个细分领域。改进教学是人工智能对教与学实践的促进,改进管理则是对校园管理等后勤行政方面的效用提升。

就要买买买 ·  4天前
谁在为“AI+教育”试错买单?

在教育行业,似乎AI作为一个辅助工具出现更为合适,企业在资本浪潮簇拥着前进的时候,更应该想清楚是教育的本质,以及商业模式是否行得通,否则等资本的泡沫褪去,留下的也不过是满地鸡毛。

大鱼 ·  4天前
人工智能图像放大器,完全免费!一键告别渣像素

你可以在互联网上找到一些解决方案,以快速进行拍摄后期制作。该AI图像放大器采用人工智能和机器学习技术放大任何图像。它可以保持图像质量而不会像素化。

科技有点牛 ·  4天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载