从数据标注师看AI技术深度应用

作者: 查士加 2018-08-24 17:04:38

【51CTO.com原创稿件】近期,AI领域的黑科技不断刷新人们对人工智能的认知,从张学友演唱会上人脸识别逃犯,到菜鸟在杭州试点的智能柜刷脸取件服务,再到西溪湿地景区刷脸入园,阿里人脸识别已应用在阿里平台的电商、通信、寄递、旅行、直播等60多个业务场景,人工智能技术开始全面赋能各产业。

优酷AI技术成为各领域深度赋能的技术标杆 

今年6月世界杯直播期间,优酷向全世界展示了其在AI及云视频领域的雄厚实力,作为历史上首家拿下世界杯直播权的主流视频平台,优酷世界杯直播成功首秀的背后,由优酷自研的“智能媒体大脑”、阿里云密集的CDN节点和巨量带宽储备支撑,实质上是一场围绕内容产业的技术升级浪潮。

这波浪潮刚刚平息不久,优酷的一则招聘启示又登上热搜。“娱乐数据标注师”,俗称“吻戏鉴定师”,其岗位描述如下:一是对视频数据进行标注及归纳整理,二是负责数据质量校验,三是协助人脸识别模型的训练,对娱乐领域的算法进行优化。乍一看,AI相关职业,工作年限要求不高,无脸盲,认识大量明星,追过大量综艺、网剧和电影,了解机器学习,简直高大上啊!

可以说,优酷招聘“娱乐数据标注师”,是优酷机器学习技术又一深度赋能产业的标杆案例。

 “吻戏鉴定师”的叫法绝非浪得虚名,其主要职责是满足视频的智能编辑需求,将视频分割成图像对其进行打标签,如教计算机识别接吻场景,需要将图片打上“接吻”和“非接吻”的标签。据悉,目前优酷标签库的标签大致可分为三级,标签种类已达上万个,其中常用标签一千余个,机器能够理解的标签已达百余个。

给接吻镜头打标

优酷高级算法工程师吉恒杉表示,为视频打标签的诉求很早就有,以前都是以人工的方式针对头部剧打标签,且颗粒度不会那么细。有了AI,通过智能的方式部分取代了人工打标签,一是提高了打标效率,二是处理的颗粒度更细。优酷算法专家郭亮提到,“AI智能化主要是对视频的内容做理解,有各种各样的维度,通过收集用户的喜好,例如喜欢的明星,喜欢的视频类别和场景,来推荐更符合用户喜好的视频。”

“通过机器去理解视频中的接吻、拥抱等片段,核心是要了解视频中的情绪,将比较冲突的看点标记出来,推荐上榜,机器打标能够极大提高推荐的准确率。如果人工去标记整部剧,很难全部标记出来,机器识别的好处在于能够形成规模化效应,标签越精细,效益也就越高。”优酷资深技术专家解缙介绍,“优酷视频上的剧集预告和回放片段都可以通过视觉理解技术自动生产,目前人工生产和机器生产的比例是7:3,二者相辅相成,热点非常强的视频会采用人工推荐,但不会全部由机器替代。”

当然,人脸识别模型需要不断训练来提高准确率,机器要学习大量的内容场景,数据标注师相当于机器识别的老师,帮助机器理解哪些图像是“吻戏”、“打戏”、“进球”等,理解视频中包含哪些明星,识别明星脸、网红脸,经过在不同场景、不同角度的反复学习,准确率才能达到可用水平。

实际上,接吻场景又分正面、侧面和后面等多类镜头,99%以上的接吻是一整段视频,它是一个连续的场景,可以以镜头为单位,当人物和脸融合在一起时,业务准确度可以达到非常高的水平。通过对视频的拆分,可以对明星进行识别,统计某一明星在单集中出现的时间段,可以将该明星出现的镜头拆分出来推荐给喜爱这一明星的用户观看,“只看他/她”这一功能在技术上已经能够实现了,只是尚未对广大用户开放。

各种角度的网红脸 傻傻分不清

说到这里,小编有个疑问,明星脸尤其是网红脸是怎么鉴别的呢,娱乐圈众多明星撞脸,常常傻傻分不清楚,机器又该怎么识别呢?吉恒杉透露,该图像分类识别模型基于当前主流的TensorFlow以及阿里内部的框架开发,为了保证机器识别的准确率,技术人员会统一调一个阈值,如果明星比较多,会对明星做微调。保证识别准确率一方面在于数据,另一方面在于分类模型,当图片数据量达到一万张时,准确率达到80%左右就可以交给编辑进行评估或是生产了,目前的图片数据量已达几万张,准确率越来越高。

据悉,目前优酷主要招聘娱乐数据标注师和体育数据标注师两大类,对这两方面感兴趣且对机器学习有一定了解的程序员不妨一试。

技术团队底蕴深厚,优酷AI技术实力处在行业前列

在被问及优酷机器识别模型的训练时长时,吉恒杉表示该模型到目前为止仅训练2个多月的时间,如此短的训练时长即可交付应用,相信很多人对背后这支技术团队涌发强烈的好奇。

据目前了解,阿里对AI技术的研究已有数年,早在2015年10月,阿里安全部已开始用人工智能识别网络上包括色情、暴力在内的违规信息,被称为“阿里AI鉴黄师”,到目前为止,在智能鉴黄模型上跑的正常图片与色情图片数量已达千万张。阿里AI鉴黄师不仅能鉴别黄片黄图,连带有情色信息的语音内容都能识别。当然,AI鉴黄并不能完全取代人工鉴黄,最佳的审核方式是智能为主,人工为辅。人工鉴黄师群体被AI鉴黄师取代,转而去做打标和审查可疑图片的工作,与优酷所招聘的数据标注师的职能类似。

今年世界杯期间,从拿到世界杯直播授权,到世界杯开赛,只有短短2个星期的时间,支撑优酷直播的这支团队囊括了产品技术团队、阿里云的团队还有阿里做天猫双十一的技术保障团队。在多个团队的合力支持下,6月14日,世界杯揭幕战拉动优酷移动端新用户增长日环比近160%,整体日活用户环比增长20%左右,世界杯直播观看人数超过1200万,创造优酷平台直播历史新高。

阿里巴巴副总裁、阿里大文娱优酷CTO庄卓然表示:“世界杯直播是阿里将机器智能大规模应用于文娱产业各领域的一个缩影。从高质量多媒体内容的智能生产、大规模网络资源的智能调度、到实时流媒体的智能编码与动态渲染,背后都有机器智能的参与。”

AI技术全面服务于内容生产各环节

此前,庄卓然曾公开表示,“文娱行业正处在发生巨变的前夜,而技术的发展正是推动这次变革的推手,尤其是在中国。世界杯只是一个缩影,技术对内容产业的影响是多元的,随着机器智能、大数据、云计算的发展成熟,我们深刻的意识到,内容产业的每一个环节都将迎来新的一轮升级。”

据庄卓然介绍,高频运动画面的清晰度和流畅度一直是互联网体育赛事直播最大的挑战,而在本次世界杯直播中,优酷技术团队利用在流媒体处理和网络分发领域的深度积累,结合近年来在机器智能技术的沉淀和突破,创新性地将广电专业链路同互联网流媒体智能基础设施结合,形成AI时代的“智能媒体大脑”,包括:智能编解码、智能调度、智能交互、智能处理、智能生产五大引擎,全面覆盖实时流媒体内容的生产、分发、消费与交互场景,保证了随时随地观看高清、流畅直播的一体化体验首次在互联网端实现。


其中优酷世界杯直播受到一致好评的高清晰度背后就是智能编解码引擎的作用,该技术还有一个名字“窄带高清2.0”,已在优酷平台广泛应用,本次优酷技术团队又针对赛事直播景基于机器学习优化了特有的编码策略,比如足球、草地、球员分别采用特别编码策略进行优化,大幅提升了比赛画面的层次感和通透性。

随着机器智能、大数据、云计算的发展成熟,内容产业的每一个环节都将引来新的一轮升级。庄卓然表示,“在AI驱动下,优酷的整个内容采买、策划、运营、甚至广告营销体系都完成了重塑”。

“内容产业会进入到一个更加智能的时代,一个更加个性化多元化的时代,一个更加极致体验的时代。” 庄卓然表示,正式进入阿里经济体两年后,经过技术基础设施、人才团队和商业生态的进一步融合,优酷正在努力抓住这一机遇,加速落地好莱坞+硅谷模式,积极推动中国式创新,迎接中国文娱行业走向世界巅峰的新机遇。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

数据标注师 AI 人工智能 应用 阿里 优酷
上一篇:浮沉60载的人工智能,我们对它有什么误解? 下一篇:为什么说人工智能的“第一滴血”属于企业IT自动化
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

11个主流AI聊天机器人平台,你绝不能错过

人工智能聊天机器人掀起了一场用户体验革命。只要用户需要,机器人就能提供有用的信息。一些企业应用AI聊天机器人为客户提供积极有益的帮助,企业也因此得到了长足的发展。

读芯术 ·  15h前
5G自动驾驶什么样?韩国测试得出这样的结果

自动驾驶与5G的产业发展备受关注,而两者结合会有什么样的效果,韩国企业近日进行了一番探索。韩媒报道称,10月10日,LG U+自动驾驶汽车在首尔麻谷LG科学园一带的普通公路上进行了测试。

佚名 ·  16h前
全球十大AI训练芯片大盘点

AI芯片哪家强?现在,有直接的对比与参考了。英国一名资深芯片工程师James W. Hanlon,盘点了当前十大AI训练芯片。

乾明 ·  17h前
模型仅1MB,更轻量的人脸检测模型开源,效果不弱于主流算法

AI模型越来越小,需要的算力也也来越弱,但精度依旧有保障。最新代表,是一个刚在GitHub上开源的中文项目:一款超轻量级通用人脸检测模型。

乾明 ·  17h前
人工智能遇冷,自动驾驶受阻?

2016到2019,人工智能经历了梦幻般的三年,但人工智能的历史规律告诉我们:高潮过后可能会引来新的一波沉寂,人工智能助推下的自动驾驶也会受到波及。

佚名 ·  22h前
非监督学习最强攻略

本次主要讲解的内容是机器学习里的非监督学习经典原理与算法,非监督,也就是没有target(标签)的算法模型。

SAMshare ·  22h前
PyTorch终于能用上谷歌云TPU,推理性能提升4倍,该如何薅羊毛?

Facebook在PyTorch开发者大会上正式推出了PyTorch 1.3,并宣布了对谷歌云TPU的全面支持,而且还可以在Colab中调用云TPU。

晓查 ·  23h前
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。

机器之心 ·  2天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载