曹永寿:大数据及AI技术 构建衡量艺人商业价值的标尺

作者: 查士加 2018-09-17 10:49:17

【51CTO.com原创稿件】近日,娱乐大数据应用服务商艾漫数据发布的8月艺人商业价值排行榜榜单显示,鹿晗、杨幂这些长期霸占榜单前三名位置的艺人,突然跌出榜单前十名,而范冰冰受到负面新闻影响,商业价值已断崖式暴跌至48名。

榜单一经发布,引起了社会各界的广泛关注,在近日的媒体沟通会上,艾漫数据总裁曹永寿接受了51CTO的采访,曹永寿介绍,“艾漫数据成立以来,一直致力于构建娱乐产业全方位的大数据服务平台,以数据构建和连接泛娱乐产业链上下游。艾漫成立近七年来有两大标签,那就是‘脱水’和‘商业价值’。”

艾漫数据总裁 曹永寿

其中,脱水指的是借助先进的自然语言处理技术、人工智能算法及机器学习模型,实现对“水军”的精准识别以及对网络数据的去水,这是为娱乐行业提供真实、有效数据的基础。

脱水实际上是一个数据清洗的过程,要实现脱水首先面临着成本的问题,它意味着服务器收集来的数据量有六成是作废的,而且水军也在不断变强,会不停研究艾漫的模型和算法,试图去绕开这些规则,因此艾漫需要不断变更模型和算法,这是脱水过程中遇到的一大难题。

艾漫通过发帖内容的近似度、发帖的频次、发帖的时间以及发帖账号的关注情况来判断是否为水军。首先,水军发布的内容创意有限,内容高度相似;其次,水军的发帖频率极高,超出人类的使用极限;再次,水军需要提前酝酿,往往绕开互联网正常使用节点的波峰;最后,水军都是虚拟号,往往互相关注,没有正常使用行为的人关注水军。四个维度综合起来,基本就能很明确的将水军定位出来。

众所周知,艺人的咖位、量级在行业内一直是一个比较模糊的概念,广告主或制片方在挑选艺人时,通常依靠经验判断,但凡是依靠人为判断做出的决策,大多带有主观倾向和认知偏差,并不是每一次都能做出最正确的选择。

艾漫数据认为,艺人的商业价值是可以通过数据量化的,可以通过热度指数、专业指数、代言指数和口碑指数四个维度衡量,分别代表了艺人在大众媒体中的影响力,艺人对其作品成绩的贡献程度,艺人代言品牌的数量和等级,以及艺人在公众和媒体中评价的优劣。

针对8月商业价值榜,曹永寿告诉记者,在榜单发布之后,确实引来了一些艺人的不解,但这就是数据呈现出来的事实,“在这一版商业价值指数中,我们将隐藏的风险——道德、商业、法律和政治等四个层面全部都测算进去。” 他坦言,随着政策的收紧以及偶像产业的飞速发展,令2018年以及今后的艺人商业价值越来越难以凭借经验判断,数据对企业决策也将发挥出更加重要的作用。

据了解,艾漫数据自2012年成立以来,一直致力于大数据挖掘技术和自然语言处理技术在娱乐行业的深度应用,艾漫由“AIMAN”而得名,是较早专注于人工智能技术的公司之一。由清华大学智能技术与系统国家重点实验室主任朱小燕教授担任艾漫数据首席科学家,负责公司总体技术框架。

艾漫I.D.P——国内首个泛娱乐大数据平台

艾漫I.D.P是我国首个泛娱乐大数据平台,平台由数据处理层、数据挖掘层、业务应用层组成,其最底层的数据来源于运营商数据、行业数据以及客户数据等合作伙伴数据,也有艾漫自身挖掘的言论数据、搜索数据和行业、媒体数据。曹永寿表示,艾漫有从2010年到2018年最全的娱乐行业数据。

中国的文字博大精深,自然语言处理是非常难的一个学科。据悉,艾漫数据在大数据应用领域的相关技术处于国内领先地位,尤其是在人工智能、自然语言处理和数据挖掘方面,通过采用先进的机器学习模型算法,以及海量数据的并行计算框架,在实体识别和关联技术、热词和短语抽取技术、情感分类技术、多文档聚类技术、事件传播分析技术、细粒度观点挖掘技术等方面具备国内领先水平。

曹永寿坦言,人工智能跑马圈地,没有足够的人工不要谈智能。先累死人才能做到智能,先累死人工,因为前期需要大量的编辑通过打标让机器去学习,才能够逐渐提高机器识别的水平。

他提到,艾漫数据在朱小燕教授的帮助下完成了前期建模,第二年实现了50%以上的机器识别准确率,第三年超过86%,现在已经到了第七个年头,已经能够实现对情感的判断,达到了短语识别的水平。他举例,“我草”这个词在六种不同的语境中表达的情感有所不同,艾漫做自然语言,能够知道小四是谁,哪个小四是郭敬明,哪个文章是演员。

提到商业模式时,曹永寿表示,“艾漫数据是一家没有态度的公司,我们的定位是第三方数据公司,不屑于用假数据去讨好客户。我们的客户来自于广告组和艺人。”广告组用艾漫数据来判断艺人跟品牌是否贴切,艺人发展的热度是否足以支撑品牌未来一年的代言,是否能帮助品牌补足创意,拓展圈层和消费者,这些是广告组需要的指标。而艺人可以通过艺人经营系统中量化的指标查看粉丝经营情况,从而调整媒体传播策略。

可以看出,艾漫数据已经把所有对泛娱乐数据的理解变成了标准化的数据产品,然而如何将数据转化成商业价值仍然是艾漫需要坚持不懈去努力探索的问题。但是小编相信,随着大众对数据认可度的逐渐提升,像艾漫这样的数据公司必将获得市场的认同,数据对行业、企业以及艺人的影响力也将越来越大,让我们拭目以待吧。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

大数据 人工智能 AI 艾漫数据 曹永寿
上一篇:机器学习未来将走向何方?英特尔-南大联合研究中心将给出答案 下一篇:如何让产品像人工智能一样懂你?我总结了这些方法!
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI行业寒潮下,智能物流机器人产业迎来“风口”

“人工智能,前景很好,但‘钱’景不好 ” 、“2018年,人工智能的进展就是没有进展”、“2019年的AI行业已如石墨烯一样,尽显疲态”……一篇《投资人逃离人工智能》文章又给人工智能行业泼了一身冷水。人工智能融资难、“寒冬论”再一次戳痛每个人工智能从业者的心,激起大众的焦虑情绪。

AI报道 ·  13h前
人工智能应用在智慧社区五大场景

物联网、云计算、大数据、人工智能正逐步从概念走向应用。越来越多的传统产业也开始探索和创新,积极拥抱互联网和新技术。未来,人工智能技术可能会颠覆社区管理。

有熊 ·  13h前
基于PyTorch的CV模型框架,北大学生出品TorchCV

在机器学习带来的所有颠覆性技术中,计算机视觉领域吸引了业内人士和学术界最大的关注。

张倩、泽南 ·  15h前
高位截瘫患者重新行走:靠意念指挥外骨骼,法国脑机接口新突破

依靠介入头部的 2 个传感器,法国里昂的一名瘫痪男子 Thibault 实现了操控外骨骼装备来助力行走。

孙滔 ·  19h前
2008 年预测 2020 年生活方式:基本都实现了

美国皮尤研究中心曾在 2008 年预测 2020 年的生活方式,目前来看,该研究的预测基本已经实现。而对于未来 10 年,也就是 2030 年左右人们的生活,在 2017 年底的世界经济论坛上,800 多名信息和通讯技术领域的技术高管和专家给出了如下预测。

佚名 ·  19h前
机器学习的正则化是什么意思?

正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;所以说,使用正则化的目的就是为了防止过拟合。

佚名 ·  19h前
为什么我的CV模型不好用?没想到原因竟如此简单……

机器学习专家 Adam Geitgey 近日发布了一篇文章探讨了这一简单却又让很多人头痛的问题,并分享了他为解决这一问题编写的自动图像旋转程序。

机器之心 ·  19h前
中文自动转SQL,准确率高达92%,这位Kaggle大师刷新世界纪录

首届中文NL2SQL挑战赛上,又一项超越国外水平的NLP研究成果诞生了。在NL2SQL这项任务上,比赛中的最佳成绩达到了92.19%的准确率,超过英文NL2SQL数据集WikiSQL目前完全匹配精度86.0%,执行匹配精度91.8%的最高成绩。

郭一璞 ·  20h前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载