随机森林学习笔记

Wsyoneself

2024-04-26 帮助1人

随机森林是一种由决策树构成的集成算法
决策树：一种基于if-then-else规则的有监督学习算法
随机森林是有很多决策树构成的，不同决策树之间没有关联。
当进行分类任务时，让森林中的每一棵决策树分别进行判断和分类，将分类多的作为最终的结果
构造随机森林：
1. 随机抽样训练决策树：
2. 随机选取属性做节点分裂属性
3. 重复2直到不能再分裂
4. 建立大量决策树形成森林
具体实现过程：
1. 一个样本容量为N的样本，有放回的抽取N次，每次抽取1个，最终形成了N个样本。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。
2. 当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m << M。然后从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性。
3. 决策树形成过程中每个节点都要按照步骤2来分裂（很容易理解，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了）。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
4. 按照步骤1~3建立大量的决策树，这样就构成了随机森林了。
优点：
1. 对于高维数据不需要降维和特征选择
2. 可判断特征的重要程度以及不同特征之间的相互影响
3. 训练速度快，可并行
4. 对不平衡数据集可平衡误差
缺点：对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的
应用方向：
1. 对离散值的分类
2. 对连续值的回归
3. 无监督学习聚类
4. 异常点检测

这篇好文章是转载于：学新通技术网

随机森林学习笔记

photoshop保存的图片太大微信发不了怎么办

Android 11 保存文件到外部存储，并分享文件

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

怎样阻止微信小程序自动打开

TikTok加速器哪个好免费的TK加速器推荐