决策树分支属性的三种选择方法

决策树算法的核心就是划分属性的选择，按照最优划分属性选择方法的不同可以把决策树算法分为ID3、C4.5和CART算法。本质上来说，决策树的构建过程就是一个熵减的过程，也就是集合混乱度贬低，纯度变高的过程。要刻画集合的混乱程度，可以使用以下两个公式，这两个公式计算出来的值越小就说明集合的混乱度越低，纯度越高，反之亦反之。记是集合中第种取值的占比：

信息熵

基尼指数

针对某个特定的属性，他可能有很多取值，我们就可以按照样本在这个属性上取值的不同把集合拆分为许多小的集合，对于这些小的集合，我们同样可以使用上面两个公式去计算它们的混乱程度或，然后加权得到或。根据或就可以找到针对集合的最优划分属性是谁，用第一种思路的就是ID3算法，用第二种思路的就是CART算法。而C4.5算法则是的改进，在其基础上除以一个和子集合大小相关的值消除集合大小的干扰。