高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

作者: Haimin Luo等 2021-06-01 09:57:39

 

模糊复杂目标的高真实感建模和渲染对于许多沉浸式 VR/AR 应用至关重要,其中物体的亮度与颜色和视图强相关。在本文中,来自上海科技大学的研究者提出了一种使用卷积神经渲染器为模糊目标生成不透明辐射场的新方案,这是首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案,并以任意新视角生成全局一致的 alpha 蒙版。

具体而言,该研究提出了一种有效的采样策略以及摄像机光线和图像平面,从而能够进行有效的辐射场采样,并以 patch-wise 的方式学习。同时,该研究还提出了一种新型的体积特征集成方案,该方案会生成 per-patch 混合特征嵌入,以重建视图一致的精细外观和不透明输出。

此外,该研究进一步采用 patch-wise 对抗训练方案,以在自监督框架中同时保留高频外观和不透明细节。该研究还提出了一种高效的多视图图像捕获系统,以捕获挑战性模糊目标的高质量色彩和 alpha 图。在现有数据集和新的含有挑战性模糊目标的数据集上进行的大量实验表明,该研究提出的新方法可以对多种模糊目标实现高真实感、全局一致、外观精细的不透明自由视角渲染。

高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

论文地址:https://arxiv.org/abs/2104.01772

该研究的主要贡献包括:

  • 提出了一种新型卷积神经辐射场生成方案,用于重建高频和新视图中模糊目标的全局一致的外观和不透明度,并显著超越了此前的 SOTA 性能;
  • 为了启用卷积机制,该研究提出了高效的采样策略,混合特征融合以及用于 patch-wise 辐射场学习的自监督对抗训练方案;
  • 提出了一种高效的多视图系统,以捕获颜色和 alpha 图,以应对具有挑战性的模糊目标,该研究的捕获数据集可用于激发进一步的研究。

方法框架

研究者在论文中详细介绍了新提出的卷积神经不透明辐射场(convolutional neural opacity radiance field, ConvNeRF)。该模型基于捕获系统的 RGBA 输入,能够在新视图中实现高真实感、全局一致的外观和不透明渲染,如下图所示:

高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

端到端 ConvNeRF pipeline 概览

给定多视图 RGBA 图像,研究者使用 SFS(Shape-From-Silhouette)来为高效射线采样推断代理几何。对于体积空间中的每个样本点,位置和方向都会馈入到一个基于多层感知机(MLP)的特征预测网络,以在全局水平上表征对象。然后,研究者将附近的射线合并为局部特征 patch,并使用卷积体渲染器将其解码为 RGB 和蒙版。他们在最终输出上使用对抗训练策略,以促成精细的表面细节。在 reference 阶段,该方法一次渲染整个图像,而不是渲染每个 patch。

该方法的主要思想是使用空间卷积机制对不透明信息进行显式编码,以改进神经辐射场方法(NeRF),对高频细节进行建模。受 NeRF 启发,研究者采用了类似的隐式神经辐射场来表征使用多层感知器的场景,以及沿投射射线方向预测密度和颜色值的体融合(volumetric integration)。

不同的是,ConvNeRF 通过空间卷积设计进一步显式编码不透明度,以显著改进神经辐射场重建。为此,研究者首先提出一种高效的采样策略,不仅利用沿摄像机光线的先验固有轮廓,还要编码整个图像平面上的空间信息。接着采用一种全局几何表征法将 3D 位置映射成高级辐射特征,并通过一种新型体融合方案生成 per-patch 混合特征嵌入,这样一来分别对外观和不透明度的特征进行建模,从而以 patch-wise 的方式进行更高效的辐射场学习。

最后,研究者使用一个轻量级的 U-Net 来将特征 patch 解码为视图一致的外观和不透明度输出,并进一步采用了一种 patch-wise 对抗训练方案,以在自监督框架中保留高频外观和不透明度细节。

捕获系统

该研究用到的捕获系统(capture system)能够生成高质量的多视图 RGBA 图像,用于对具有挑战性的模糊目标进行显式不透明度建模。

如下捕获系统概览图所示,该方法的 pipeline 配备了易于使用的捕获设备以及稳定的校验和自动抠图方法。

高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

实验结果

该研究在多种毛茸茸物体上评估了 ConvNeRF。定量和定性评估实验的结果表明:与之前的工作相比,该方法可以更好地保留高保真外观细节,并在任意新视图中生成全局一致的 alpha 蒙版。该研究进一步进行了消融实验,以验证该方法的设计选择。

如下图 6 所示,在 Cat、Girl、Wolf 数据集上,研究者对该方法与 IBOH、NOPC、和 NeRF 的自由视点 RGB 进行了对比。结果发现,该方法能够在保留几何全局视图一致性的同时重建几何和外观上的精细细节,例如猫的毛皮纹理、女孩靴子上的图案以及狼毛的几何细节。IBOH 表现出重影和混叠,NOPC 存在过度模糊和几何细节的损失,而 NeRF 则表现出过多的噪声和模糊。

下图 7 展示了在 Cat、Hairstyle 2 数据集上,该方法与 IBOH、NOPC 和 NeRF 的自由视点 Alpha 效果比较。结果发现,该方法可以从视线不一致的 alpha 蒙版中恢复缺失的部分不透明度,例如猫的胡须,如第一行所示,而 IBOH 则会失败,并出现严重的伪影。该方法可以产生比 NOPC 更锐利(sharp)的 alpha 蒙版,后者会在头发周围产生严重的伪影。而 NeRF 在富有挑战性的 Hairstyle 2 数据集上失败了。

高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

在定量评估方面,研究者使用 PSNR、LPIPS 和 SSIM 作为指标定量评估了几种方法。如下表 1 和表 2 所示,ConvNeRF 在 RGB 和 alpha 结果上都实现了显著的性能提升。

高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

下表 3 展示了在半透明(即 0 < α < 1)区域上,所有数据集的平均 PSNR,该方法实现了 SOTA 性能。

高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉
AI 数据 机器学习
上一篇:大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析 下一篇:人工智能能否使机器具有流体智力?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

机器学习又跨界发Nature啦!美国东北大学的研究员将研究成果发表在Nature上,探究世界各地人类的表情有什么不一样?结果相关率只有30%。

佚名 ·  2021-05-31 13:19:55
自动驾驶汽车领域究竟在纠结些什么?

正常来说,自动驾驶受到认可,技术路线正常迭代,同样会受到市场认可。但这个报告中,造车新势力配置L3自动驾驶,及传统车企配置L2辅助驾驶的比例却并没有显著提升,甚至还有所下降。

佚名 ·  2021-05-31 10:46:16
最快AI计算机开动,每秒4百亿亿浮点运算!正拼接最大宇宙3D地图

近日,被誉为全球最快的人工智能工作负载超级计算机——Perlmutte宣布开启。这台新超级计算机以拥有6144个英伟达A100张量核心图形处理器,将负责拼接有史以来最大的可见宇宙3D地图。

佚名 ·  2021-05-31 09:48:10
清华唐杰团队造了个“中文ai设计师”,效果超Dall·E

最近清华大学唐杰团队打造了一个“中文版Dall·E”——CogView,它可以将中文文字转图像。

晓查 ·  2021-05-31 09:45:51
打破“维度的诅咒”,机器学习降维方法好

机器学习算法因为能够从具有许多特征的数据集中找出相关信息而大火,这些数据集往往包括了几十行的表格或者数百万像素的图像。

水木番 ·  2021-05-31 09:41:17
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载