数据挖掘期末4

prajna2002

2024-04-26 帮助1人

分类

分类：什么是有监督和无监督学习，其之间的差别
无监督的学习（关联规则、聚类分析）
1. 数据集中对象的类标记（概念）是未知的
2. 挖掘潜在的数据内部模式
3. 告诉机器怎么学
监督学习（分类/预测）
1. 数据集中对象的类标记已知
2. 通过类标记的指导下学习数据中的模式
3. 利用获取的模式或者模型对新数据进行分类预测
4. 不告诉机器怎么学
什么是生成模型/判别模型及区别
生成模型：
1. 希望从数据中
2. 学习/还原出原始的真实数据生成模型。
3. 常见的方法是学习数据的联合概率分布。
4. E.g 朴素贝叶斯方法、隐马尔科夫模型等
判别模型：
1. 从数据中==学习到==不同类概念的区别从而进行分类
2. 如KNN、SVM、ANN、Decision Tree、etc.
3. 特点：
4. 生成模型和判别模型的区别：
  - 生成模型：
  1. 当容量大时，生成模型容易接近真实模型
  2. 能处理具有隐含变量的情景
  - 判别模型：
  1. 速度快
  2. 准确率较高
分类和回归的区别，两个本质上差别不大
分类和预测是监督学习中的两种主要类型
分类：构造一个分类器来预测类标记
1. 预测分类标号（或离散值）
2. 根据训练数据集和类标号属性，构造模型来分类现有数据，并用来分类新数据
3. 经典分类方法：
  1. Decision Tree
  2. KNN
  3. Navie Bayes
  4. SVM
  5. ANN
预测/回归：构造一个预测器来预测连续值或趋势

建立连续函数值模型，预测未来的情况比如预测空缺值
经典算法：决策树：决策树的生成流程，怎么筛选属性，筛选属性的准则，类别纯度越纯越好
什么是决策树？
1. 类似于流程图的树结构
2. 每个内部节点表示一个属性上的测试
3. 每个分枝代表该测试的输出
4. 每个树叶节点代表类或类分布
决策树的生成流程

决策树的生成流程，怎么筛选属性，筛选属性的准则，类别纯度越纯越好
1. 决策归纳树算法(一个贪心算法)
  1. 自顶向下的分治方式构造决策树
  2. 使用分类属性（如果是量化属性，则需先进行离散化）递归的通过选择相应的测试属性，来划分样本
  3. 测试属性是根据某种启发信息或者是统计信息来进行选择（如：信息增益）
2. 流程
  1. 树以代表训练样本的单个结点开始。
  2. 如果样本都在同一个类．则该结点成为树叶，并用该类标记。
  3. 否则，算法选择最有分类能力的属性作为决策树的当前结点．
  4. 根据当前决策结点属性取值的不同，将训练样本数据集分为若干子集，每个取值形成一个分枝，有几个取值形成几个分枝。针对上一步得到的一个子集，重复进行先前步骤，递归形成每个划分样本上的决策树。一旦一个属性出现在一个结点上，就不必在该结点的任何后代考虑它。
  5. 递归划分步骤仅当下列条件之一成立时停止：
    
    ①给定结点的所有样本属于同一类。
    
    ②没有剩余属性可以用来进一步划分样本。
    
    ③如果某一分枝，没有满足该分支中已有分类的样本，则以样本的多数类创建一个树叶
3. 属性选择基本准则
  1. 属性选择度量、又称分类规则，决定给定节点上的分组如何分裂
  2. 具有最好度量得分的属性（对分出的数据类别月“纯”）选定为分裂属性
  3. 三种度量
  1. 信息增益
  2. 信息增益率
  3. Gini指标
4. 决策树的优缺点
- 优点：
  - 容易转化成分类规则
  - 计算量相对较小所以速度较快
  - 准确性高（挖掘出来的分类规则准确性高便于理解）
- 缺点：
  - 容易过拟合
  - 忽略了属性之间的相关性

筛选准则：信息增益，信息增益率，基尼指数
1. 信息增益（ID3）：
  1. 原来的信息与分裂后的信息之差，说明我们通过划分得到了多少信息
  2. 选择具有最高信息增益的属性
  3. 令 $p_i$ 为D中任一元组属于类 $C_i$ 的概率，估计为 $\frac{|C_{i,D}|}{|D|}$
  4. D中元组分类需要的信息熵：
    
    $Infro(D)=-\sum_{i=1}^mp_ilog_2(p_i)$
  5. (利用A分裂D为v个部分后）分类D需要的信息为： $Info_A(D)=\sum_{j=1}^v\frac{|D_j|}{|D|}\times Info(D_j)$
  6. 以属性A分支得到的信息增益
    
    $Gain(A)=Info(D)-Info_A(D)$
2. 信息增益率（C4.5）
  1. 信息增益倾向于有大量不同取值的属性（划分更细，更纯），但是每个划分只有一个类的时候info=0
  2. 具有最大增益率的属性选为分裂属性
  3. $SplitInfo_A(D)=-\sum_{j=1}^v \frac{|D_j|}{|D|} \times log_2(\frac{|D_j|}{|D|})$
  4. $GainRatio(A)=\frac{Gain(A)}{SplitInfo_A(D)}$
  5. 即信息增益率=信息增益/根据当前那个类利用信息熵公式算出来的值，越大越好
3. Gini指数
  1. Gini指数度量数组元素的不纯度，越小越好
  2. 如果
  3. 数据D包含N类别的样本，Gini(D)定义为 $gini(D)=1-\sum_{j=1}^{n}p_j^2$
    
    $P_j=\frac{|C_{j,D}|}{|D|}$
  4. 数据集D基于属性A分裂为子集 $D_1$ 和 $D_2$ ，gini指标定义为
    
    $gini_A(D)=\frac{|D_1|}{|D|}gini(D_1) \frac{|D_2|}{|D|}gini(D_2)$
    
    $\Delta gini(A)=gini(D)-gini_A(D)$
    
    具有最小 $gini_{split}(D)$ 的属性（or不纯度减少最大的）用于分裂节点
过拟合问题：核心原因：数据/训练，测试分布不一致。解决策略：1 最有效的是增大样本数量 2 去除噪声 3 降低复杂度 4 train-volidation-test 5正则项https://www.zhihu.com/question/26726794
在决策树里避免过拟合：1降低层高 2 增加叶子节点个数包含样本最小数 3 先剪枝/后剪枝
1. 设定决策树的最大高度（层数）来限制树的生长
2. 设定每个节点必须包含的最小记录数，当节点中记录的个数小于这个数值时就停止分割
3. 树剪枝
  1. 先剪枝：提前终止树构造
    1. 如果对一个节点的分裂会低于给定的阈值的度量，划分停止
    2. 选择一个合适的阈值很难
  2. 后剪枝：从完全生长的树中减去树枝
    1. 但后剪枝的计算量代价比先剪枝方法大德多，特别是在大样本集中，不过对于小样本的情况，后剪枝方法还是优于预剪枝方法的
（关键考点）决策树优点：1 可解释性 2 集成

1、便于理解和解释。树的结构可视化
2、训练需要的数据少，其他机器学习模型通常需要数据规范化，比如构建虚拟变量和移除缺失值
3、由于训练决策树的数据点的数量导致了决策树的使用开销呈指数分布（训练树模型的时间复杂度是参加训练数据点的对数值）
4、能够处理数值型数据和分类数据，其他的技术通常只能用来专门分析某一种的变量类型的数据集；
5、能够处理多路输出问题；
6、使用白盒模型。如果某种给定的情况在模型中是可以观察的，那么就可以轻易的通过布尔逻辑来解释这种情况，相比之下在黑盒模型中的结果就是很难说明清楚了；
7、可以通过数值统计测试来验证该模型。这对解释验证该模型的可靠性成为可能
8、即使是该模型假设的结果越真实模型所提供的数据有些违反，其表现依旧良好
KNN： 1 流程找距离做测试 2lazy learning(懒惰学习)

有那么一堆你已经知道分类的数据，然后当一个新数据进入的时候，就开始跟训练数据里的每个点求距离，然后挑出离这个数据最近的K个点，看看这K个点属于什么类型，然后用少数服从多数的原则，给新数据归类。
1. 算距离:给定测试对象，计算它与训练集中的每个对象的距离
2. 找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻
3. 做分类：根据这k个近邻归属的主要类别，来对测试对象分类
优缺点：多分类，多标签缺点：K敏感噪声敏感 预测慢可解释性差高位诅咒问题
优点：简单，易于理解，易于实现，无需估计参数，无需训练
准确率一般较高
适合对稀有事件进行分类，特别适合于多分类问题
缺点：懒惰算法，对测试样本分类时的计算量大，内存开销大，评分慢
当类不平衡的时候，倾向于将类全部归类为大类
可解释性较差，无法给出决策树那样的规则。对噪声非常敏感
算法3：朴素贝叶斯
1. 由于对数据特征条件独立的强假设，所以如果数据集不符合这种假设，准确率可能会较低
2. 优点：概率输出，对文本分类效果较好
3. 给定训练样本集X，假设H的先验概率，P(H|X)服从贝叶斯定理 $P(H|X)=\frac{P(X|H)P(H)}{P(X)}$
4. 朴素贝叶斯分类器：
  1. 假设y是类变量，X是依赖特征向量（大小为n）：X=( $x_1,x_2,x_3,...,x_n$ )
    
    $P(y|X)=\frac{P(X|y)P(y)}{P(X)}$
  2. 类条件独立假设
    
    $P(y|x_1,...x_n)=\frac{P(x_1|y)P(x_2|y)...P(x_n|y)P(y)}{P(x_1)P(x_2)..P(x_n)}=\\\frac{P(y)\prod_{i=1}^nP(x_i|y)}{P(x_1)P(x_2)...P(x_n)}$
  3. 朴素贝叶斯分类器： $\widehat{y}=arg \underset{y}{max}P(y)\prod_{i=1}^nP(x_i|y)$
SVM（支持向量机）：基本思想：间隔最大化。优点：支持小样本（支持向量）可以处理一个非线性问题（核技巧）泛化能力强（结构风险最小化）可以尽量处理高维问题
1. 支持向量机在解决小样本、非线性及高维模式识别中表项出许多特有的优势，并能够推广应用到函数你和等其他机器学习问题中
2. 在边界上的点称为支持向量
3. 优点：可以支持小样本，泛化能力强
4. 线性可分和不可分问题：如果一个线性函数能将样本完全正确的分开，就称这些数据是线性可分的，否则称为非线性可分。
5. SVM-最大间隔化：我们要找到的线离两边的数据要有尽可能大的间隔，而这就是支持向量机最大间隔化的思想
6. SVM线性分类器： $g (x) = w x b$
  1. x->样本的向量表示
  2. w->n维向量
  3. $g (x) = 0$ ->分类面
7. 如何求得最大的分类间隔？
  1. 点到平面的距离：点 $x_1,y_1,z_1)$ ,平面为： $A x b y C z D = 0$ ,则 $d=\frac{|Ax_1 By_1 Cz_1 D|}{\sqrt{A^2 B^2 C^2}}$
  2. 定义 $\delta_i=|\frac{g(x_i)}{||w||}|$ ,为几何距离
  3. 因此最大间隔化问题可进一步转换为条件最优问题： $\underset{w,b}{min}\frac{1}{2}||w||^2\\s.t\quad y_i(\textcolor{green}{w x_i b})\geq1,i=1,2..,N$
  4. 拉格朗日乘子法解决
8. 线性不可分问题
  1. 现实数据：线性不可分，解决方案：核函数
  2. 核函数： $k(x,z)=\phi(x)\phi(z)$
    1. 常见的核函数：高斯核、多项式核、径向基核等
    2. 多项式核 $1)^p,p\geq1$
    3. Sigmoid核： $k(x,z)=tanh(\beta x·z \theta),\beta>0,\theta<0$
    4. 高基（径向基）核 $k(x,z)=exp(-\frac{||x-z||^2}{2\theta^2})$
    5. Kenel Function:
      1. Example: $k(x,z)=(x,z)^2$
      2. Assume: $x=(x^{(1)},x^{(2)}),z=(z^{(1)},z^{(2)})\\\phi(x)=((x^{(1)})^2,\sqrt2x^{(1)}x^{(2)},(x^{(2)})^2)^T\\\phi(x)·\phi(z)=(x·z)^2=k(x,z)$
人工神经网络（了解就行）:感知机（线性问题）
1. ANN是一个多输入单输出的非线性阈值器件
2. $x_1,x_2,……x_n$ ：某一神经元的n个输入；
  $w_{ij}$ ：第j个神经元与第i个神经元的突触连接强度，其值称为权值；
  $b_i$ 表示神经元的的阈值，那么形式神经元的输出可以描述为：
  $y_i=f (A_i)$
  $A_i=∑w_{ji}x_j-b_i$
  $\textcolor{blue}{f(A_i)}$ 是表示神经元输入－输出关系的函数，称为作用函数或传递函数。有三种形式：阈值型、S型和伪线性型
3. 权重修正方法：相关学习和误差修正学习
  1. 相关学习 $W_{ji} (t 1 ) = W_{ji} (t) η[ X_i(t) X_j(t) ]$ ,
    1. $W_{ji}(t 1)$ 表示修正一次后的某一权值
    2. η是一个正常量，决定每次权值修正量，又称为学习因子
    3. $X_i(t)、X_j(t)$ 分别表示t时刻第i、第j个神经元状态
  2. 误差修正学习法：见下一条
BP网络->误差梯度回传（MLP）优点：拟合能力强。缺点：容易过拟合，慢。
1. 误差修正学习法：像感知机学习、BP网络学习均属此类
2. 最基本的误差修正学习方法：即 $\textcolor{blue}{\sigma学习规则}$ ,由4补描述：
  1. 选择一组初始权值 $W_{ji}(O)$ ;
  2. 计算某一输入模式对应的实际输出与期望输出的误差
  3. 更新权值： $W_{ji}(t 1)=W_{ji}(t) η[d_j-y_j(t)]x_i(t)$ 其中，η为学习因子； $d_j$ 、 $y_j$ 分别表示第j个神经元的期望输出与实际输出； $x_i$ 为第j个神经元的输入
  4. 返回步骤2，直到所有训练模式网络输出均能满足要求
3. 使网络输出层的误差平方和达到最小
4. BP算法的两部分：信息的正向传递与误差的反向传播
5. 基于后向传播算法（BP算法）的多层前馈网络模型
  
  输入向量： $ X=(x_1,x_2,…,x_i,…,x_n)^T$
  隐层输出向量： $Y=(y_1,y_2,…,y_j,…,y_m)^T$
  输出层输出向量： $O=(o_1,o_2,…,o_k,…,o_l)^T$
  期望输出向量： $d=(d_1, d_2,…,d_k,…,d_l)^T$
  输入层到隐层之间的权值矩阵： $V=(V_1,V_2,…,V_j,…,V_m)$
  隐层到输出层之间的权值矩阵： $W=(W_1,W_2,…,W_k,…,W_l)$
6. Sigmoid函数： $单极性Sigmoid函数：f(x)=\frac{1}{1 e^{-x}}\\双极性Sigmoid函数：f(X)=\frac{1-e^{-x}}{1 e^{-x}}$
7. 程序实现：
  1. 初始化
  2. 输入训练样本对计算各层输出
  3. 计算网络输出误差
  4. 计算各层误差信号
  5. 调整各层权值
  6. 检查是否对所有样本完成一次轮训
  7. 检查网络总误差是否达到精度要求
分类的评估指标：分类准确率精度，回归度非平衡类：特异性，灵敏度
1. 类分布不平衡问题:
  
  One class may be rare, e.g. fraud, or HIV-positive
  1. 灵敏度: 正确识别的正样本的百分比
    
    Sensitivity = TP/P
  2. 特效性: 正确识别的负样本的百分比
    
    Specificity = TN/N

集成学习考到的可能性不大，黑字重点记忆，其余了解

集成模型：准则：基学习器要足够好，基学习器多样化
1. 集成学习通过将多个学习器进行结合，通常可以获得比单一学习器显著优越的泛化功能
2. 个体学习器要有一定的“准确性”，并且要有：多样性，即学习器间具有差异
Bagging：（random forest)
1. 给定包含m个样本的数据集，先随机取出一个样本放入采样集，再把该样本放回初始数据集，使得下次采样时，该样本扔有可能被选中
2. 经过m次随机采样，得到m个样本的采样集
3. 初始训练集中有的样本在采样集多次出现，有的则从未出现
4. 这样可采样出T个含个训练样本的采样集
5. 然后基于每个采样集训练出一个基学习器，再将这些基学习器结合
6. 对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法
7. Bagging算法流程：
  1. 输入：训练集 $D={(x_1,y_1),...,(x_m,y_m)}, y\epsilon(-1, 1)$ ;基学习算法 $\varepsilon$ ;训练轮数T
  2. 过程： $\\ h_t=\varepsilon(D,D_{bs})\\end for$
  3. 输出： $H (x) = a r g$ $max_{y \epsilon Y}\sum_{t=1}^T\prod(h_t(x)=y)$
8. 随机森林
  1. 随机森林是Bagging的一个扩展
随机森林
1. 随机森林是Bagging的一个扩展
2. RF在以决策树为基学习器构建Bagging集成的基础上，在决策树的训练过程中引入随机属性选择
3. 对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集
4. 再从这个子集中选择一个最优属性用于划分
5. 参数k控制了随机性的引入程度
6. 基本流程：
  
  ①假如有N个样本，则有放回的随机选择N个样本(每次随机选择一个样本，然后返回继续选择)。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。
  
  ②当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m << M。然后从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性。
  
  ③决策树形成过程中每个节点都要按照步骤2来分裂（很容易理解，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了）。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
  
  ④按照步骤1~3建立大量的决策树，这样就构成了随机森林了
Boosting:(AdaBoost/LightGAM)
1. Boosting 是一族可将弱学习器提升为强学习器的算法：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本进行调整，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本训练下一个基学习器，如此重复进行，直至基学习器达到事先指定的值，最终将这 T 个基学习器进行加权结合。
Stacking
1. Stacking先从初始数据集训练出初级学习器，然后生成一个新数据集用于训练次级学习器。在这个新数据集中，初级学习器的输出被当作样例输入特征，而初始样本的标记仍被当作样例标记。Stacking算法描述如下，这里假定初级学习器使用不同学习算法产生，即初级集成是异质的。
  2.

这篇好文章是转载于：学新通技术网

数据挖掘期末4

分类

photoshop保存的图片太大微信发不了怎么办

Android 11 保存文件到外部存储，并分享文件

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

怎样阻止微信小程序自动打开

TikTok加速器哪个好免费的TK加速器推荐