学习机器学习前,你首先要掌握这些概率论基础知识

作者: 佚名 2017-09-21 12:15:36

机器学习中有很多十分重要的核心基础概念,掌握这些概念对我们进行机器学习和数据科学的相关工作十分重要,可以帮助我们发现一些以往容易被忽视的新线索。那么其中很重要的一个就是——概率。

有的朋友在看见概率的时候可能会问,我们已经有了那么多很好用的数学工具了,为什么还需要概率呢?我们拥有可以解决多种尺度并衡量其变化的微积分;拥有可以借方程做变化的线性代数,还有很多很多的数学工具可以解决几乎我们能想到的所有难题。概率似乎不是那么重要了?

但事实上,我们生活在一个充满混沌和不确定的世界里,很多事情没办法精确的测量。当我们进行研究的时候,面对的是随机误差和不确定性的干扰。不确定性几乎无处不在,我们需要了解它的习性,掌握并利用它,这就是我们需要概率理论和统计的原因。

  • 如今概率已经深入到人工智能、粒子物理、社会科学、生物信息科学等方方面面,甚至我们日常生活中的点点滴滴。
  • 概率和统计的概念如此重要,下面我们就为大家阐述概率相关的不同概率,希望大家可以对概率有更清晰的认识。

频率论概率

想象一下我们要测量一个硬币是否均匀,需要进行怎样的实验呢?我们需要不断的抛硬币,并记录每一次的朝向,重复1000次后让我们来看看实验的结果。如果结果是600次朝上400 次朝下,那么我们将得到60%和40%的概率。这个概率就可以作为硬币朝上或者朝下的概率,这样的方式成为频率派的概率观点。

条件概率

频率派的观点需要通过大量实验的记录来总结。但条件概率却是不一样的观点,在事件B发生的情况下A发生的概率。让我们来看两个例子:

  • 我们看到电闪雷鸣的情况下下雨的概率是多少?
  • 艳阳天下雨的概率是多少?

学习机器学习前,你首先要掌握这些概率论基础知识

在上面的欧拉图中我们可以看大P(Rain | Thunder) = 1, 意味着打雷就会下雨(假定100%),但对于 P(Rain | Sunny)呢?虽然这个概率很小,但是我们如何通过一个公式将它表达出来呢?这就引出了条件概率的表达式:

学习机器学习前,你首先要掌握这些概率论基础知识

我们通过将同时下雨和出太阳的概率除以出太阳的概率算出了出太阳的情况下会下雨的条件概率。

独立和依赖事件

如果某一事件发生的概率完全不受到其他事件的影响,我们就称其为独立事件。 例如我们在抛色子是,***笔抛了2,第二次抛2 的概率,这两次抛是独立的,那么同时得到2 的概率可以写为:

学习机器学习前,你首先要掌握这些概率论基础知识

但是为什么上面的公式是对的呢?我们首先将***次和第二次抛色子事件分别写成A和B,并将同时得到2 的概率写成事件A和B的联合概率分布:

这时在等式两边除以P(B)并利用条件概率的定义我们得到下面的式子:

学习机器学习前,你首先要掌握这些概率论基础知识

我们发现 P(A | B) = P(A)。这意味着A与B是相对独立的,B的发生对A并不造成任何影响。

贝叶斯概率

频率派一般会利用统计的方法找出与模型的参数,而贝叶斯理论则认为模型的参数也满足一定的分布。在贝叶斯统计中,每一个参数拥有自己的统计分布,在一定的数据下给出参数的可能性的分布:

学习机器学习前,你首先要掌握这些概率论基础知识

这一公式的基础就是上面提到的条件概率:

学习机器学习前,你首先要掌握这些概率论基础知识

尽管表达式十分简单,但是贝叶斯理论十分强大,广泛应用在各个学科,甚至产生了一门称为贝叶斯统计的统计学分支。如果你对贝叶概率感兴趣,下面这个博客是不错的学习资料:https://www.countbayesie.com/blog/2015/2/18/bayes-theorem-with-lego

分布

有的小伙伴又会问了,贝叶斯概率很好,那到底什么是分布呢?分布其实是一个描述某一个量不同取值范围及其概率的(实验或者数学推导)函数,在函数中有一些参数可以调整这一分布的行为(范围和取值概率)。

当我们测量硬币正反的时候得到了一个分布,这称之为经验的概率分布。在现实生活中,很多类似事情是可以通过概率分布来描述的。例如抛硬币实验就满足伯努利分布,并可以利用这个分布来计算n次实验后哪一面朝上的概率。

在概率论中,还需要明确一个称为随机变量的概念。每一个随机变量都有自己的分布,我们一般约定俗成的将随机变量写成大写字母来表示,并用~来表示其所属的分布:

上式意味着随机变量X满足0.6的伯努利分布。

连续和离散分布

概率分布一般分为两种情况:离散分布和连续分布。离散分布是指随机变量只在一些有限的位置取值,例如抛硬币的伯努利分布,离散分布一般利用概率质量函数Probability Mass Functions (PMF) 来定义;而连续分布一般用来处理无穷多个随机变量取值的情况。例如测量带有噪音的速度就是一个连续分布的例子。连续分布一般利用概率密度函数Probability Density Functions (PDF) 来定义。

对应的概率离散利用连加∑ 符号,连续概率利用∫符号来描述。

学习机器学习前,你首先要掌握这些概率论基础知识

样本和统计

想象一下我们想要进行一个人体身高的测量研究,我们在大街上随机的测量了一些陌生人的身高,那么这个测量可以看做是独立的。我们将从一个人群中随机选取样本的过程称为采样。统计的作用就是对这些数据进行总结和信息的提取,例如计算这些样本的均值:

学习机器学习前,你首先要掌握这些概率论基础知识

样本的标准差是这样计算的:

学习机器学习前,你首先要掌握这些概率论基础知识

这一公式用来描述数据点与其均值的偏差。

更多的进阶学习

学了这么多感觉不错吧?你一定想要进行更深入的学习吧!这些知识一定会让你在日后的研究工作中受益,并收获更深的理解。

希望你在概率中发现更多的美,能在自己的学习工作熟练的应用相关的思想,做出更好的成绩。

机器学习 概率 学习
上一篇:深度学习 + OpenCV,Python实现实时视频目标检测 下一篇:深度学习利器:TensorFlow在智能终端中的应用
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

刷脸取件被小学生“破解”!丰巢紧急下线

近日,#小学生发现刷脸取件bug#的话题引发关注!这是真的吗?都市快报《好奇实验室》进行了验证。

好奇实验室 ·  15h前
4 分钟!OpenAI 的机器手学会单手解魔方了,完全自学无需编程 精选

OpenAI 的机器手学会单手解魔方了,而且还原一个三阶魔方全程只花了 4 分钟,其灵巧程度让人自叹不如。

佚名 ·  1天前
MIT新研究表明机器学习不能标记假新闻

麻省理工学院研究人员发表的两篇新论文显示,当前的机器学习模型还不能完成区分虚假新闻报道的任务。在不同的研究人员表明计算机可以令人信服地生成虚构新闻故事而无需太多人为监督之后,一些专家希望可以训练基于相同机器学习的系统来检测此类新闻。

佚名 ·  1天前
高位截瘫患者重新行走:靠意念指挥外骨骼,法国脑机接口新突破 精选

依靠介入头部的 2 个传感器,法国里昂的一名瘫痪男子 Thibault 实现了操控外骨骼装备来助力行走。

孙滔 ·  2天前
2008 年预测 2020 年生活方式:基本都实现了

美国皮尤研究中心曾在 2008 年预测 2020 年的生活方式,目前来看,该研究的预测基本已经实现。而对于未来 10 年,也就是 2030 年左右人们的生活,在 2017 年底的世界经济论坛上,800 多名信息和通讯技术领域的技术高管和专家给出了如下预测。

佚名 ·  2天前
机器学习的正则化是什么意思?

正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;所以说,使用正则化的目的就是为了防止过拟合。

佚名 ·  2天前
机器学习的正则化是什么意思?

正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;所以说,使用正则化的目的就是为了防止过拟合。

佚名 ·  2天前
为什么我的CV模型不好用?没想到原因竟如此简单……

机器学习专家 Adam Geitgey 近日发布了一篇文章探讨了这一简单却又让很多人头痛的问题,并分享了他为解决这一问题编写的自动图像旋转程序。

机器之心 ·  2天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载