你讲故事,它剪视频:AI视频剪辑自动化解放熊猫眼剪辑师

作者: 张倩、杜伟 2019-11-18 10:14:19

视频剪辑是一项费时费力的工作,需要剪辑者自己去找合适的帧并将其拼接在一起。如果能将这一过程自动化,部分剪辑师可能就不用熬夜剪片子了。来自清华、北航、哈佛大学和以色列赫兹利亚跨学科研究中心的研究者开发了一种全新的视频剪辑方法,可以通过编辑视频对应的文本完成镜头选取和拼接,生成符合文字描述的连贯视频。

研究者提出的这一工具名为「Write-A-Video」,它可以根据文本来决定选取库中的哪些镜头或场景,以此来组成剪辑者所需的故事情节。该工具对新手非常友好,即使不具备专业的视频剪辑技巧也能得到高质量的视频蒙太奇。

研究者还提出了一个全新的视频剪辑界面,用户可以直接在文本上进行操作,而无需对视频帧进行操作。

他们在不同的主题文本和视频资料库中进行了测试,并进行了定量评估和用户研究。结果表明,这一结合了人类和算法能力的智能数字化工具可以在创意创造过程中给予用户帮助。借助于 Write-A-Video 工具,没有任何视频剪辑经验的用户也可以剪出令人满意的视频,有时候剪辑速度甚至比那些使用帧剪辑工具的专业人士还要快。

该团队准备在本月 17-20 号举办的 ACM SIGGRAPH Asia 大会上展示这一成果。ACM SIGGRAPH Asia 是一个由国际图形图像协会举办的电脑图像和互动技术展览及会议,是计算机图形学的顶级国际会议。

研究者表示,「Write-A-Video」允许剪辑者创通过简单地编辑视频附带的文本来创建视频蒙太奇。他们可以添加或删除文本、移动句子转换成视频剪辑操作,如找到相应的镜头、剪辑或重置镜头等。

剪辑过程分为三个步骤:(1)用户提供输入,大部分时候是编辑文本;(2)系统自动搜寻视频库中语义匹配的镜头;(3)拼接视频。分割文本和镜头之间的视觉-语义匹配是通过级联关键词匹配和视觉-语义嵌入来实现的,比其他解决方案准确率要高。考虑到时间限制,视频重组被定义为对镜头、摄像机运动和色调等电影技术指标以及用户指定的电影技术习惯用法(cinematographic idiom)的混合优化。

你讲故事,它剪视频:AI视频剪辑自动化解放熊猫眼剪辑师

「Write-A-Video 利用了当前自动视频理解的先进技术和独特的用户界面,可以生成更加自然、简单的视频剪辑效果,」赫兹利亚跨学科研究中心的教授 Ariel Shamir 表示。「使用我们的工具,用户能够以文本编辑的方式提供输入。该工具可以从视频库中自动搜索语义匹配的候选镜头,然后使用优化方法,通过自动裁剪和镜头重排来组合视频蒙太奇。」

现为北航虚拟现实技术与系统国家重点实验室助理研究员及硕士生导师的王淼博士说道:「Write-A-Video 可以使用户通过电影技术习惯用法探索每个场景的视觉风格,以此来加快或减缓视频节奏、增加或减少动作内容等。」

此外,当从视频库中选取候选镜头时,Write-A-Video 会兼顾镜头的美学效果,自动选择那些灯光、聚焦良好以及清晰稳定的镜头。来自清华大学的胡事民教授说道:「在任何时间点上,用户都可以借助旁白叙事来渲染视频和预览视频剪辑效果」。

在众多视频网站中,「观看某位明星镜头」的选项已经出现一段时间了,最近有关自动剪辑的研究看起来又将自动化提高了一大步。这样的技术,什么时候会进入实用阶段呢?

项目链接:https://www.faculty.idc.ac.il/arik/site/writeVideo.asp

参考链接:https://siggraphasia.mystrikingly.com/blog/lights-camera-and-text-novel-video-editing-tool-for-user-friendly?categoryId=129388

AI 数据 人工智能
上一篇:AI 处于黄金时代,还是即将迎来寒冬? 下一篇:7 个有助于 AI 技术的优秀开源工具
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载