1. 贝叶斯

2. 朴素贝叶斯

http://blog.csdn.net/amds123/article/details/70173402

分类问题可做如下定义:已知集合,确定映射规则y = f(x),使得任意有且仅有一个,使得成立


其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合(特征集合),其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。

为什么需要假设特征之间相互独立呢

特征的联合概率分布总数非常多,现实生活中,往往有非常多的特征,每一个特征的取值也是非常之多

朴素贝叶斯法对条件概率分布做了条件独立性的假设,这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。

优点:算法逻辑简单,易于实现分类过程中时空开销小;算法稳定,对于不同的数据特点其分类性能差别不大,健壮性比较好

缺点:朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好;

效率:

某些领域,与决策树和神经网络分类法相媲美;理论上贝叶斯分类具有最小错误率,但实践并非如此(条件独立

朴素贝叶斯的属性都是离散的,对于连续值怎么划分属性?如果P(aj/yi)=0怎么办?

假定其值是服从高斯分布的,只要计算出样本中在各个类别中该特征项划分的各个均值和标准差,带入公式即可得到其估计值;对于P(aj/yi)=0,引入拉普拉斯校准

如果特征属性之间是关联的,怎么办

贝叶斯网络,Seminaive bayesian算法(半朴素贝叶斯算法)

而在属性相关性较小时,朴素贝叶斯性能最为良好。

改进对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。


3. 决策树