多尺度表征10亿像素图像,斯坦福神经场景表征新方法入选SIGGRAPH

作者: 佚名 2021-05-17 10:05:08

 当前,神经表征已经成为渲染、成像、几何建模和模拟应用的一种新范式。与网格、点云和体积网格等传统表征相比,神经表征可以灵活地合并入可微分、基于学习的 pipeline。神经表征近来的进展实现了在中等分辨率下表征具有丰富细节的信号,比如图像和 3D 形状,但充分地表征大尺度或复杂场景依然是一个挑战。

现有的神经表征无法准确地表征分辨率大于百万像素的图像或者数十万个多边形组成的 3D 场景。

斯坦福大学近日的一项研究给出了解决方案,他们提出了一种新的隐式 - 显式混合网络架构和相应训练策略,可以在训练和推理过程中根据信号的局部复杂度来自适应地分配资源。他们将这种用于神经场景表征的自适应坐标网络( Adaptive coordinate network )简称为 Acorn。

该方法中采用了类似于四叉树或八叉树的多尺度块坐标分解(multiscale block-coordinate decomposition),该分解在训练过程中进行细化。具体地,网络架构分为两个阶段:其一坐标编码器使用大量网络参数在单个正向传递中生成网格特征;其二每个块中数百或数千个样本通过轻量级特征解码器进行高效地评估。

多尺度表征10亿像素图像,斯坦福神经场景表征新方法入选SIGGRAPH

项目主页:
https://www.computationalimaging.org/publications/acorn/

论文地址:
https://arxiv.org/pdf/2105.02788.pdf

利用这种混合的隐式 - 显式网络架构,研究者首次展示了将 10 亿像素图像拟合到接近 40dB 峰值信噪比。值得注意的是,与以往图像拟合实验中展示的分辨率相比,这一数据代表了 1000 多倍的尺度增加。此外,研究者的方法能够较以往更快且更好地表征 3D 形状,将训练时间从几天缩减至几小时或几分钟,内存需求也至少降低了一个数量级。

Acorn 的实际表征效果如下几个动图所示,首先是 10 亿像素的 2D 东京城市图像:

 

其次是 3D 浮雕的重建展示效果:

多尺度坐标网络

研究者提出的多尺度表征网络包含两个主要组件,即多尺度块参数化(基于局部信号复杂度划分输入空间)以及由坐标编码器和特征解码器组成的网络架构(负责将输入空间和尺度坐标高效地映射至输出值)。

多尺度块参数化

多尺度块参数化的核心是输入域的树分区(tree-based partition)。具体来讲,研究者使用二维四叉树或三维八叉树来划分域,并确定树的最佳尺度和最大深度,具体如下图 3 所示:

多尺度表征10亿像素图像,斯坦福神经场景表征新方法入选SIGGRAPH

传统多尺度分解方法中,输入域的每个值在多尺度上进行表征,比如图像金字塔( image pyramid)中的每个像素。与之不同,本研究的方法划分空间以在单尺度上表征每个输入值。

神经网络架构

多尺度表征网络的坐标编码器定义如下:

给定一个连续的局部坐标 X_1,特征向量提取如下:

这种两阶段架构的一个关键优势是:极大地降低了相同块中评估多个坐标的计算开销。另一优势是:由于特征网络在跨空间位置和尺度上可以在具有重复结构的信号中重复使用,因而有可能提升网络性能。

在线多尺度分解

研究者提出了新的自动分解方法能够自适应地分配网络资源以拟合感兴趣的信号,并且受到了模拟技术中自适应网格细化方法和有限单元求解器的启发。这些有限单元求解器在优化过程中进行细化或粗化处理,从而在最小化计算开销的同时提升求解准确率。

剪枝

为了在多尺度网络中不为整个区域学习相同的值,研究者从分区中对块进行剪枝,直到块不能被进一步分解,并且它的值在查表(look-up table)中设置。并且,由于块不再活跃,分区中的空间可以通过松弛公式(8)中的限制来释放。

多尺度表征10亿像素图像,斯坦福神经场景表征新方法入选SIGGRAPH

至于是否确定要对块 B_i 进行剪枝,研究者发现,在实际操作中,满足以下两个条件可以运行良好:低误差和低方差。

表征 10 亿像素图像

研究者首先评估了 Acorn 表征 10 亿像素图像的表现。以往的神经图像表征方法将分辨率限制在了百万像素以下,本研究则选择了 6400 万像素和 10 亿像素,远远超越了以往方法。

具体而言,他们通过拟合两张大尺度图像来展示 Acorn 的性能。如下图 2 所示,第一张是新视野号太空探测器拍摄的冥王星图像,它的分辨率为 8,192×8,192,并具有不同尺度下的特征,因而是多尺度表征的理想实验对象。

结果表明,利用本研究资源分配策略优化的自适应网格能够使用明显更小的块来表征丰富的细节,以火山口为例,空阔且大面积的均匀区域可以在更小的尺度下得到表征。

多尺度表征10亿像素图像,斯坦福神经场景表征新方法入选SIGGRAPH

第二张是 10 亿像素分辨率为 19,456×51,200 的东京城市图像,比最近神经图像表征使用图像的分辨率高约三个数量级。

同样地,研究者捕捉到了图像在不同尺度下的丰富细节。

多尺度表征10亿像素图像,斯坦福神经场景表征新方法入选SIGGRAPH

总的来说,Acorn 可以进行缩放以灵活地表征大规模 2D 图像,在训练速度、性能以及任务整体适用性方面均带来了显著提升。

表征复杂 3D 场景

除了 2D 图像,本研究提出的多尺度表征还可以很好地泛化至复杂 3D 场景的表征中。

如下图 5 所示,与 Conv. Occ.、SIREN 等以往方法相比,Acorn 能够更加准确地表征复杂形状。从定性角度来讲,Acorn 在表征丰富细节方面比这些方法更加强大,比如缠结的浮雕和紧密纠缠的弹簧;从定量角度来讲,Acorn 在体积容量和网格准确率两项指标上均优于所有基准方法。

多尺度表征10亿像素图像,斯坦福神经场景表征新方法入选SIGGRAPH

最后,与以往神经表征方法相比,Acorn 在计算效率方面也有显著提升。通过在采样点中共享计算,该方法显著降低了训练和查询模型所需的内存和时间开销。

神经网络 数据 图形
上一篇:为什么2G/3G和AI擦不出火花?他们用这篇论文告诉你答案 下一篇:未来,电影配音也能用人工智能了?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定

近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。

机器之心报道 ·  1天前
何恺明MAE大火后,想梳理下视觉Transformer?这篇梳理了100多个

在这篇论文中,Yang Liu 等几位研究者全面回顾了用于三个基本 CV 任务(分类、检测和分割)的 100 多个视觉 Transfomer。

机器之心报道 ·  1天前
颠覆大规模预训练!清华杨植麟组提出全新NLP学习框架TLM,学习效率×100倍

近期,清华大学团队提出一种无需预训练的高效 NLP 学习框架,在仅使用了1% 的算力和1% 的训练语料的条件下,在众多 NLP 任务上实现了比肩甚至超越预训练模型的性能。

佚名 ·  2天前
AI能读懂40种语言,15个语种拿22项第一,背后是中国团队22年坚守

怎样才叫打破语言界的天花板?一次拿下15个语种22项第一,还让机器读懂40多种语言。能够在多语种语音语言领域制霸的背后是中国团队22年对顶天立地这一理念的坚守。

佚名 ·  2天前
为提高能量利用效率,大脑练就了预测感知能力

越来越多的神经科学家开始将大脑视为 "预测机器"。通过预测处理,大脑利用其对世界的先验知识来推断或产生假设,来解释传入感官信息的原因。

我在思考中 ·  4天前
GAN靠「伪造思维」登上Nature子刊:首次合成神经活动数据

GAN这回玩了票大的,把手伸向了“人脑思维”。没错,直接就是一个“合成思维”——生成用来喂给脑机接口的那种大脑活动数据。

博雯 梦晨 ·  2021-11-22 17:40:08
一张图像百般变化,英伟达用GAN实现高精度细节P图

当前,AI 驱动的照片和图像编辑技术有助于简化摄影师和内容创作者的工作流程,并赋能更高水平的创意和数字艺术。

机器之心报道 ·  2021-11-22 10:19:09
效果爆炸的漫画变身AI,火到服务器几度挤爆

这个AnimeGAN,真是厉害了!只需一张图片或一段视频,无论男女老少、明星素人都可以一睹自己的“动漫风采”~

金磊 丰色 ·  2021-11-22 09:30:30
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载