Decision Tree algorithm（四）

一. Tree Ensembles - Random Forest

bagging方法可以有效降低模型的方差。随机森林每棵子树不需要剪枝，是低偏差高方差的模型，通过bagging降低方差后使得整个模型有较高的性能。

随机森林算法如下:

从N个样本中有放回的随机抽样n个样本。
如果每个样本的特征维度为 M，指定一个常数 m«M，随机地从M个特征中选取m个特征子集，每次树（ID3,C4.5,CART）进行分裂时，从这m个特征中选择最优的(信息增益，信息增益比率，基尼系数)；
每棵树都尽最大程度的生长，并且没有剪枝过程。
采用投票表决的方式进行分类。

特征m个数的选取：用作分类时，m默认取，最小取1. 用作回归时，m默认取M/3，最小取5.

两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入，使得随机森林不容易陷入过拟合，并且具有很好得抗噪能力（比如：对缺省值不敏感）。

随机森林分类效果（错误率）与两个因素有关：森林中任意两棵树的 相关性：相关性越大，错误率越大；森林中每棵树的 分类能力：每棵树的分类能力越强，整个森林的错误率越低。

减小特征选择个数m，树的相关性和分类能力也会相应的降低；增大m，两者也会随之增大。所以关键问题是如何选择最优的m（或者是范围），这也是随机森林唯一的一个参数。　　　　

随机森林优点：

随机森林缺点：

[1] 李航，《统计学习方法》

[2] 陈云樱等, 《决策树中基于基尼指数的属性分裂方法》