Machine-Learning-DecisionTree

2017-07-03

Alt_text

决策树算法属于监督学习，决策树是一个类似一流程图的树型结构，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，每个树叶结点代表类或者类分布，树的最顶层是根结点。

decision tree

对于不确定的事件，通过信息量來度量，越不确定一件事，需要的信息量越大

熵计算公式如下:

count

构造决策树时怎么选择结点，用于选择属性判断结点。
通过变量值信息获取量(Information Gain)來判断，一个属性的信息获取量计算：
Gain(A) = Info(D) - Info_A(D)
即没有A时的信息量减去加上A之后的信息量，差值作为判断标准(D是数据集,A是属性)，步骤如下：

1 计算事件总的熵
2 针对每一个属性进行划分，然后计算划分的每一个熵
3 利用信息量获取计算公式计算出每个属性的信息获取量
4 选择最大的信息量的结点
5 剩下的节点进行重复计算