深度学习,如何用去噪自编码器预测原始数据?
去噪自编码器(denoising autoencoder, DAE)是一类接受损坏数据作为输入,并训练来预测原始未被损坏数据作为输出的自编码器。
去噪自编码器代价函数的计算图。去噪自编码器被训练为从损坏的版本~x 重构干净数据点x。这可以通过最小化损失L = -log pdecoder(x|h = f(~x)) 实现,其中~x 是样本x 经过损坏过程C(~x| x) 后得到的损坏版本。
得分匹配是***似然的代替。它提供了概率分布的一致估计,促使模型在各个数据点x 上获得与数据分布相同的得分(score)。
对一类采用高斯噪声和均方误差作为重构误差的特定去噪自编码器(具有sig-moid 隐藏单元和线性重构单元)的去噪训练过程,与训练一类特定的被称为RBM 的无向概率模型是等价的。
将训练样本x 表示为位于低维流形(粗黑线)附近的红叉。我们用灰色圆圈表示等概率的损坏过程C(~x|x)。灰色箭头演示了如何将一个训练样本转换为经过此损坏过程的样本。
由去噪自编码器围绕1 维弯曲流形学习的向量场,其中数据集中在2 维空间中。每个箭头与重构向量减去自编码器的输入向量后的向量成比例,并且根据隐式估计的概率分布指向较高的概率。向量场在估计的密度函数的***值处(在数据流形上)和密度函数的最小值处都为零。例如,螺旋臂形成局部***值彼此连接的1维流形。局部最小值出现在两个臂间隙的中间附近。当重构误差的范数(由箭头的长度示出)很大时,在箭头的方向上移动可以显著增加概率,并且在低概率的地方大多也是如此。自编码器将这些低概率点映射到较高的概率重构。在概率***的情况下,重构变得更准确,因此箭头会收缩。
目前仅限于去噪自编码器如何学习表示一个概率分布。更一般的,我们可能希望使用自编码器作为生成模型,并从其分布中进行采样。


更多资讯推荐
- OpenAI CEO Sam Altman:AI革命即将到来,我们需要新的系统
-
我们正处于这场技术变革的开端,我们拥有创造未来的宝贵机会。而这不是简单地解决目前的社会和政治问题,它必须为完全不同的社会而设计。
Sam Altman · 1天前
- 谈谈基于深度学习的目标检测网络为什么会误检,以及如何优化目标检测的误检问题
-
在训练人脸检测网络时,一般都会做数据增强,为图像模拟不同姿态、不同光照等复杂情况,这就有可能产生过亮的人脸图像,“过亮”的人脸看起来就像发光的灯泡一样。
刘冲 · 1天前
- 人工智能优先战略将从哪里开始?
-
人工智能可以为企业带来竞争优势,并释放难以获得的巨大商机。因此,人们需要了解制定有效的人工智能优先策略的6个步骤。
李睿 · 1天前
- 传统数据之外,哪里是通往智能之路?
-
为了实现这种更高阶的人工智能,寻求进步的公司都在积极探索,除了吸收更多数据并更好地管理数据的典型方法之外,我们还需要考虑更多创新的方法。
卿云 · 1天前
- 实时高保真渲染,基于PlenOctrees的NeRF渲染速度提升3000倍
-
NeRF 方法拥有较好的渲染效果,但渲染速度极为缓慢,难以进行实时渲染。来自 UC 伯克利等机构的研究者使用一种名为 PlenOctrees 的数据结构为 NeRF 引入了一种新的数据表示,将渲染速度提升了 3000 多倍。
机器之心编辑部 · 1天前
- 95%PyTorch库都会中招的bug!特斯拉AI总监都没能幸免
-
这就是最近Reddit上热议的一个话题,是一位网友在使用再平常不过的Pytorch+Numpy组合时发现。
明敏 · 1天前
- 报告指出:中国人工智能专利申请数量居全球首位
-
中国在自然语言处理、芯片技术、机器学习等10多个人工智能子领域的科研产出水平居于世界前列。而在人机交互、知识工程、机器人、计算机图形、计算理论领域,中国还需努力追赶。
Yu · 2天前
- 人工智能伦理治理亟需迈向实践阶段
-
从“原则”到“实践”,是AI伦理领域的发展方向。目前,我国已提出了AI伦理相关的原则、框架等,如《新一代人工智能治理原则——发展负责任的人工智能》。一些科技公司也提出了类似的倡议。在此基础上,需要进一步探索AI伦理的落地实施方案,更多依靠伦理治理的相关实践来促进负责任、安全可信AI的发展应用。
曹建峰 · 2天前