我们以是否买房为例子给大家介绍一下决策树算法的使用,数据集如下(仅做演示,不代表真实情况)

地段

近地铁

面积

单价(万)

是否购买

三环

60

8

三环

80

8

三环

60

7

三环

80

7

五环

60

7

五环

80

7

五环

60

6

五环

80

6

六环

60

6

六环

80

5.5

六环

60

5

六环

80

5

从上表中我们可以看到,确定可以购买的数量有7个,不购买的数量有5个,共数是12个。按信息熵的计算公式我们可以得出此数据集的信息熵为:

image

按地段(用A1表示)划分,三环(D1),五环(D2),六环(D3),来计算信息增益

image

按是否近地铁(用A2表示)划分,是(D1),否(D2), 来计算信息增益

image

按面积(用A3表示)划分,60平(D1),80平(D2), 来计算信息增益

image

按单价划分(用A4表示),5w(D1), 5.5w(D2), 6w(D3), 7w(D4), 8w(D5) , 来计算信息增益

image

通过以上结果我们可以知道,对于信息熵的降低量(就是说人们决定是否买房的决定因素的权重)由高到低分别为:单价、面积、地段、是否近地铁

以上算法就是决策树算法中ID3算法所采用的逻辑。

注:数量仅作为演示用的测试数据,不代表真实决策依据。


关注微信公众号“挨踢学霸”,获取更多人工智能技术文章

image