虎课网为您提供字体设计版块下的决策树过拟合问题解决方法-SPSS数据分析入门手册图文教程,本篇教程使用软件为SPSS(21),难度等级为新手入门,下面开始学习这节课的内容吧!
那就开始今天的教程吧
1.本节课我们进行讲解ID3&C4.5决策树,信息熵增益率如图所示。
2.然后我们看一下过拟合问题,过度拟合跟定义如图所示。
3.接下来我们看一下产生过度拟合数据问题的原因有哪些?【样本问题】【构建决策树的方法问题】。
4.然后看一下如何解决过度拟合数据问题?首先看解决样本问题方法是合理、有效地抽样,用相对能够反映业务逻辑的训练集去产生决策树,解决构建决策树的方法问题的方法是剪枝:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。
5.前剪枝与后剪枝,剪枝是一个简化过拟合决策树的过程,有两种减值方法首先是先剪枝。
6.先剪枝方法不但相对简单,效率很高,而且不需要生成整个决策树,适合于解决大规模问题。
7.然后是后剪枝,它首先构造完整的决策树,允许树过度拟合训练数据。
8.对于前剪枝跟后剪枝的比较【REP】【PEP】【CCP】如图所示。
9.解决决策树过拟合的另一种方法-随机森林,Bootstraping意思是依靠自己的资源,成为自助法,它是一种有放回的抽样方法。
10.对于组合模型-bagging的策略【三个臭皮匠顶个诸葛亮的意思】如图所示。
11.然后我们看一下抽样的过程图如图所示。
12.对于随机森林应用非常广泛,根据目标变量的取值类型大致可分为两类,一种是分类,当目标变量为连续性,则可做回归,对应的预测结果是目标变量的分布,优点:可以产生高准确度的分类器。
13.然后将随机森林在bagging基础上做了修改如图所示。
14.接下来看一下投票极致,简单的投票机制跟贝叶斯投票机制。
15.我们再看一下贝叶斯投票机制如图所示。
16.本节课结束。
以上就是决策树过拟合问题解决方法-SPSS数据分析入门手册图文教程的全部内容了,你也可以点击下方的视频教程链接查看本节课的视频教程内容,虎课网每天可以免费学一课,千万不要错过哦!