监督学习 Supervised learning

    让我们通过讨论几个监督学习问题开始,假设我们有一个关于俄勒冈州波特兰市的47座房子的居住面积和价格的一组数据,如下所示:

part1-0.png

我们把数据画成图,如下:

part1-1.png

    给出像这样的数据,我们如何能学习预测波特兰市其他房子的价钱呢,也就是得到一个居住面积作为输入参数的函数?

为将来使用,我们定义如下符号:

    X(i) 代表输入变量(比如房子的居住面积),或者叫做输入参数。

    y(i)代表输出,或者目标变量,比如我们将要预测的价格。

    数据对 (x(i),y(i)),被称为训练样本。

    数据集{(x(i),y(i));i=1,…,m}:我们用来学习的m个训练样本,我们称为训练集。注意符号中的上标”(i)”仅代表训练样本的索引,并不是取幂计算。我们用大X代表输入值范围空间,用Y代表输出值范围空间。在这个例子中X=Y=R

    为了稍微正式一点地描述监督学习算法,我们的目标是,给定一个训练集,来学习一个函数h:XàY,也就是h(x)对于y的响应值是一个好的预测者。由于历史原因,这个函数h被称为一个假设,如下图,这个过程就像这样:

part1-2.png

回归问题:将要预测的值是连续的,比如我们所说的房子的例子,我们称这样的问题是回归问题。

分类问题:将要预测的y值仅仅是几个离散的值(比如给出面积,预测一个住处是一所住宅还是公寓),我们把这类学习问题叫做分类问题。