Few-shot Learning(1)—机器学习中的任务优化空间

作者: zidea 2021-05-27 08:38:47

今天深度学习之所以成功,大量的数据是不可缺少的必要条件。我们训练的模型都是吃过见过后才有现在这样良好的表现。不过实际情况要收集到足够多的数据并非易事,今天我们就这个问题来学习 Few-shot Learning。

上面的公式是用于估测模型,通常我们输入一个公式 x 给函数 h,这个函数 h 是模型学习到的。然后这个 L 表示预测值和真实值之间的差值,对这个差值在整个数据样本上求积分来评估这个函数 h 的拟合程度。

可以利用上面公式来找让 R(h) 最小时,所对应的函数 h,实际是无法遍历所有的模型和参数,所以需要函数集进行限制,从而缩小模型在整个空间搜索范围。这里 H 表示我们定义一个函数集,也就是在整个空间内划分出一定空间,模型搜索问题将仅限定在这个空间内进行。函数集 H 可以是 VGG、ResNet 等,函数集越复杂也就是函数表达能力越强,在整个空间所占范围也就是越大,浅蓝色圈就越大,同时搜索时间也会更长。其实对于样本的概率分布也是未知的,我们收集的样本只是数据的一部分。

那么现在就是将搜索最优函数限定在 H 空间进行搜索了。之前我们已经知道了数据的概率p(x,y) 分布也是未知的。我们只能以一定数量的样本来估计总体分布情况,当然这样做也是存在误差的。

因为对于整个数据集概率分布是未知的,所以用 I 样本代表着整体数据集。然后使用这些数据来训练出一个模型。

然后在这样的数据集上在限定空间内搜索出一个最优函数用绿色块表示搜索到模型在整个搜索空间的位置。

接下里就从黄色 start 开始在搜索空间进行搜索到在 I 样本的数据集上得到函数 h 下标 l 整个函数。那么橘黄色虚线表示真实模型和我们估计的模型之间差距表示为

其实这里误差分别来源于近似误差(approximation error)和估计误差(estimation error)

第一步我们选择一个函数集,那么什么是函数集呢,例如 VGG、ResNet 或者 DenseNet 这些都可以看成一个函数集 H,那么在整个算法中我们能够控制的是 I 和 H。所以我们可以通过增加 H 复杂性也就是扩大 H 空间以及增加 I,不过通常情况下实际我们能够收集到 I 都会很小。

  • 所以今天出现了过拟合的最直接的方式就是增加数量,也就是加大 I (数据)
  • 也就是为 H 添加一些约束空间,缩小搜索空间(模型)
  • 还有就是合理给出一个初始值(算法)
机器学习 Few-shot Learning 深度学习
上一篇:如何理解流程自动化领域? 下一篇:图灵奖获得者约翰·轩尼诗:数据和机器学习让世界变得更美好
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
打破“维度的诅咒”,机器学习降维方法好

机器学习算法因为能够从具有许多特征的数据集中找出相关信息而大火,这些数据集往往包括了几十行的表格或者数百万像素的图像。

水木番 ·  2021-05-31 09:41:17
工业界中的机器学习是什么样子的

本文结合作者十余年的工业界经历,从工业界的视角来尝试给些思考和总结,欢迎大家批评讨论。

龙星镖局 ·  2021-05-31 09:26:01
AI时代,需要发挥知识图谱+知识管理的双轮价值

AI时代,需要发挥知识图谱+知识管理的双轮价值,才能真正实现从流程驱动、数据驱动走向知识驱动。

东方林语 ·  2021-05-31 09:15:14
人工智能是如何改变日常商业运作的?

人工智能的使用也改变了我们如今开展业务的方式。从平凡的任务到数据分析,该技术使公司能够保持竞争优势。此外,使用AI可以改善个性化的客户体验以及改善风险管理。

佚名 ·  2021-05-28 17:24:32
最喜欢随机森林?TensorFlow开源决策森林库TF-DF

近日,TensorFlow 开源了 TensorFlow 决策森林 (TF-DF)。TF-DF 是用于训练、服务和解释决策森林模型(包括随机森林和梯度增强树)生产方面的 SOTA 算法集合。

机器之心 ·  2021-05-28 17:18:44
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载