• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

随机森林学习笔记

武飞扬头像
Wsyoneself
帮助1

  1. 随机森林是一种由决策树构成的集成算法
  2. 决策树:一种基于if-then-else规则的有监督学习算法
  3. 随机森林是有很多决策树构成的,不同决策树之间没有关联。学新通
  4. 当进行分类任务时,让森林中的每一棵决策树分别进行判断和分类,将分类多的作为最终的结果
  5. 构造随机森林:
    1. 随机抽样训练决策树:
    2. 随机选取属性做节点分裂属性
    3. 重复2直到不能再分裂
    4. 建立大量决策树形成森林
  6. 具体实现过程:
    1. 一个样本容量为N的样本,有放回的抽取N次,每次抽取1个,最终形成了N个样本。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。
    2. 当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m << M。然后从这m个属性中采用某种策略(比如说信息增益)来选择1个属性作为该节点的分裂属性。
    3. 决策树形成过程中每个节点都要按照步骤2来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
    4. 按照步骤1~3建立大量的决策树,这样就构成了随机森林了。
  7. 优点:
    1. 对于高维数据不需要降维和特征选择
    2. 可判断特征的重要程度以及不同特征之间的相互影响
    3. 训练速度快,可并行
    4. 对不平衡数据集可平衡误差
  8. 缺点:对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的
  9. 应用方向:
    1. 对离散值的分类
    2. 对连续值的回归
    3. 无监督学习聚类
    4. 异常点检测

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhggcckj
系列文章
更多 icon
同类精品
更多 icon
继续加载