数据集:关系型数据库中有很多表,表里面有很多记录,很多记录就可以认为是数据集

属性(特征):一个表中有很多条记录,每条记录的表有很多属性,如tb_stu(stu_id,stuname,stu_sex)s表中有3条属性

属性值:属性的取值,如stu_id可以等于1,2.3....n。stu_sex可以为男,也可以为女。

特征向量:我们可以将属性的组合投影到三维空间,用几何和代数的工具来表示他们。如三个属性,可以头影城三维空间。每个属性有很多取值,不管三个属性取值如何组合,都会在这个三维空间中。其中三维空间的一个点,我们称为特征向量。

训练:从所用的数据学的模型的过程称为学习,或训练,如100个数据集,使用80个来训练。

归纳:数学归纳法,当n=1,时,f(1)=.... 当n=2时,f(2)=..    求出通项公式,从具体到一般性的规律

演绎:从基础原理推演出具体状况,有一般推到出具体,共性===》个体。

假设空间:就是根据属性的取值的组合,构成一个假设空间。色泽=,根蒂=,敲声=,结果是好瓜

色泽有4中情况,根蒂有4中,敲声有4种,3中基本的,还有一种*构成4种,构成空间为4*4*4+1(这个自己理解)=65

假设:学得模型对应了关于数据的某种潜在的规律,称为假设。(一时不理解很正常,后续会讲清楚)假设就是从假设空间中进行搜索与删除和正例和反例不一致的假设,最终与获得训练集一致的假设。这就是我们学的结果。

归纳偏好:若我们的算法喜欢尽可能特殊的模型,则它会选择好瓜<=>(色泽=*)^(根蒂=蜷缩)^(敲声=浊响),但我们的算法有一般的模型好瓜<=>(色泽=*)^(根蒂=蜷缩)^(敲声=*),机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好。

样例(示例):训练样本包含结果信息如(色泽=青绿,根蒂=蜷缩,敲声=浊响,结果是好瓜),拥有结果是好瓜,拥有了标记信息,这样一个训练数据样本,就是样例。一般用(xi,yi)来表示第i个样本,

yi属于Y(Y是所有标记集合,或称为输出空间,标记空间)

预测:就是对训练的建成模型,然后对没有训练的数据进行预测。输入变量和输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题。

根据训练数据是否拥有标记信息,学习的任务可以大致分为两大类:监督学习和无监督学习。

分类和回归都是监督学习,都包含样例。

聚类是后者的代表。

泛化:训练模型适用于新样本的能力称为泛化能力。