机器学习-西瓜书-第3章-线性回归-学习笔记-下

郑儿大人

2024-05-08 帮助1人

3.3 对数几率回归

针对二分类的分类模型中

给出 $x$ 希望模型得到的 $f (x)$ 代表正样本的概率

线性回归： $\in R$

分类回归： $f(x)\in[0,1]$

分类任务下使用线性回归

可以使用单调可微函数将分类任务的真实标记 $y$ 与线性回归模型的预测值联系起来
例，可使用单位阶跃函数
相当于给线性回归的函数套了一个映射函数

单位阶跃函数

Heaviside函数

例：

$y=\left\{\begin{array}{cc} 0, & z<0 \\ 0.5, & z=0 \\ 1, & z>0 \end{array}\right.$

在这种情况下，若预测值 $z$ 大于0就判定为正例，小于0就判定为反例，预测值为临界值0则可以任意判别

存在的问题：单位阶跃函数不连续，不能直接使用 $g^{-}(\cdot)$

对数几率函数

logistic function

简称”对率函数"

$y=\frac{1}{1 e^{-z}}$

$y=\frac{1}{1 e^{-\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x} b\right)}}$

特点

单调可微
一定程度上近似单位阶跃函数
一种"Sigmoid"函数
- 形似S的函数
- 对率函数是Sigmoid函数的重要代表
严格是取不到0，1的

对数几率函数原理

1）对数几率

将对数几率函数进一步变形

$\ln \frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x} b$

其中 $y$ 视为样本 $x$ 为正例的可能性， $y - 1$ 为反例的可能性，则二者的比值称为几率：

$\frac{y}{1-y}$

“几率” ( odds ) 反映了 $x$ 作为正例的相对可能性
将几率取对数得到的称为"对数几率" (log odds, logit)
- $\ln \frac{y}{1-y}$

所以实际上这个过程是用线性回归模型的预测结果去逼近真实标记的对数几率

故对应的模型称为**“对数几率回归”(logistic regression, logit regression)**

虽然名称是回归，但是做的是回归算法
有的文献中译为逻辑回归

2）最大熵原理

对数几率函数的优点

直接对分类可能性进行建模，无需事先假设数据分布
得到了近似概率的预测，既包含了类别信息，又可以辅助利用概率进行决策的任务
很好的数学性质，有任意阶可导的凸函数

单位阶跃函数 v.s. 对数几率函数
学新通

损失函数的推导

极大似然估计角度

步骤

确定概率密度质量函数
写出似然函数

概率密度函数

针对不同样本，真实标记有两种情况0和1

在给定 $x$ 的情况下，模型针对 $y = 1$ 和 $y = 0$ 的预测概率结果分别为：

$\begin{array}{l} p(y=1 \mid \boldsymbol{x})=\frac{1}{1 e^{-\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x} b\right)}}=\frac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x} b}}{1 e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x} b}} \\ p(y=0 \mid \boldsymbol{x})=1-p(y=1 \mid \boldsymbol{x})=\frac{1}{1 e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x} b}} \end{array}$

对式子进行化简， $\boldsymbol{\beta}=(\boldsymbol{w} ; b), \hat{\boldsymbol{x}}=(\boldsymbol{x} ; 1)$ ，得到结果

$\begin{array}{l} p(y=1 \mid \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=\frac{e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}}}{1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}}}=p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \\ p(y=0 \mid \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=\frac{1}{1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}}}=p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \end{array}$

由于我们只关心预测真实标记的概率情况，所以针对单个样本的概率质量函数为：

$\mid \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=y \cdot p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) (1-y) \cdot p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})$

或者

$\mid \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y}$

似然函数

考虑 $m$ 的样本

$L(\boldsymbol{\beta})=\prod_{i=1}^{m} p\left(y_{i} \mid \hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)$

将似然函数进行转换

$\begin{array}{c} \ell(\boldsymbol{\beta})=\ln L(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln p\left(y_{i} \mid \hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right) \\ \ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln \left(y_{i} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right) \left(1-y_{i}\right) p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right) \end{array}$
将 $p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)=\frac{e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}}{1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}}, p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)=\frac{1}{1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}}$ 代入上式可得
$\begin{array}{l} \ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln \left(\frac{y_{i} e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}}{1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}} \frac{1-y_{i}}{1 e^{\boldsymbol{\beta}^{\mathrm{T}}} \hat{\boldsymbol{x}}_{i}}\right)\\ =\sum_{i=1}^{m} \ln \left(\frac{y_{i} e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}} 1-y_{i}}{1 e^{\boldsymbol{\beta}^{\mathrm{T}}} \hat{\boldsymbol{x}}_{i}}\right)\\ =\sum_{i=1}^{m}\left(\ln \left(y_{i} e^{\beta^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}} 1-y_{i}\right)-\ln \left(1 e^{\beta^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}\right)\right) \end{array}$

将 $y_i$ 等于1或者0代入，得到

$\ell(\boldsymbol{\beta})=\left\{\begin{array}{ll} \sum_{i=1}^{m}\left(-\ln \left(1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}\right)\right), & y_{i}=0 \\ \sum_{i=1}^{m}\left(\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}-\ln \left(1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}\right)\right), & y_{i}=1 \end{array}\right.$

将两个式子进行综合得到

$\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}-\ln \left(1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}\right)\right)$

通常损失函数是以最小化为优化目标

所以可以将式子取相反数，得到损失函数的优化目标为

$\ell(\boldsymbol{\beta})=-\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}-\ln \left(1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}\right)\right)$

信息论角度

自信息

$I(X)=-\log _{b} p(x)$

当 $b = 2$ 时单位为bit，当 $b = e$ 时单位为nat

信息熵

$H(X)=E[I(X)]=-\sum_{x} p(x) \log _{b} p(x)$

(离散型信息熵)

自信息的期望

度量随机变量 $X$ 的不确定性，信息熵越大越不确定

约定：若 $p (x) = 0$ ，则 $p(x) \log _{b} p(x)=0$

相对熵 ( KL散度 )

$\begin{aligned} D_{K L}(p \| q) &=\sum_{x} p(x) \log _{b}\left(\frac{p(x)}{q(x)}\right) \\ &=\sum_{x} p(x)\left(\log _{b} p(x)-\log _{b} q(x)\right) \\ &=\sum_{x} p(x) \log _{b} p(x)-\sum_{x} p(x) \log _{b} q(x) \end{aligned}$

其中 $-\sum_{x} p(x) \log _{b} q(x)$ 称为交叉熵

求和的含义是遍历 $x$ 所有的值

度量两个分布的差异

典型使用场景，度量理想分布 $p (x)$ 和模拟分布 $q (x)$ 之间的差异

优化原理

理想分布最接近的模拟分布即为最优分布
因此可以通过最小化相对熵这个策略来求出最优分布
理想分布 $p (x)$ 是未知但固定，所以 $\sum_{x} p(x) \log _{b} p(x)$ 为常量
最小化相对熵就等价于最小化交叉熵

以对数几率回归为例，对单个样本 $y_i$ 来说，它的理想分布是

$p\left(y_{i}\right)=\left\{\begin{array}{ll} p(1)=1, p(0)=0, & y_{i}=1 \\ p(1)=0, p(0)=1, & y_{i}=0 \end{array}\right.$

现在模型的模拟分布是

$q\left(y_{i}\right)=\left\{\begin{array}{ll} \frac{e^{\beta^{\mathrm{T}} \hat{x}}}{1 e^{\beta^{\mathrm{T}} \hat{x}}}=p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}), & y_{i}=1 \\ \frac{1}{1 e^{\beta^{\mathrm{T}}}}=p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}), & y_{i}=0 \end{array}\right.$

对于单个样本 $y_i$ 的交叉熵为

$-\sum_{y_{i}} p\left(y_{i}\right) \log _{b} q\left(y_{i}\right)$

将模型的预测结果进行代入

$\cdot \log _{b} p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})-p(0) \cdot \log _{b} p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})$

同时令 $b = e$

$-y_{i} \ln p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})-\left(1-y_{i}\right) \ln p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})$

全体训练样本的交叉熵为

$\begin{aligned} \operatorname{} & \sum_{i=1}^{m}\left[-y_{i} \ln p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)-\left(1-y_{i}\right) \ln p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right] \\ &\sum_{i=1}^{m}\left\{-y_{i}\left[\ln p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)-\ln p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]-\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right\} \\ & \sum_{i=1}^{m}\left[-y_{i} \ln \left(\frac{p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}{p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}\right)-\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right] \\ \end{aligned}$

将具体的式子代入后得到

$\sum_{i=1}^{m}\left[-y_{i} \ln \left(\frac{\frac{e^{\beta^{\mathrm{T}} \hat{\boldsymbol{x}}}}{1 e^{\beta^{\mathrm{T}} \hat{\boldsymbol{x}}}}}{\frac{1}{1 e^{\beta^{\mathrm{T}} \hat{x}}}}\right)-\ln \left(\frac{1}{1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}}}\right)\right]$

经整理后得到

$\sum_{i=1}^{m}\left(-y_{i} \boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i} \ln \left(1 e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}\right)\right)$

可以发现这两种角度下得到的损失函数结果是相同的

3.4 线性判别分析

Linear Discriminant Analysis ( LDA )

LDA思想

将样例投射到一条直线上
样例之间的关系
- 同类样例的投影点尽可能接近
- 异类样例的投影点尽可能远离
对于新样本进行分类时，投射到同样的直线上，根据投影点位置确定新样本的类别

学新通

线性判别分析 v.s. Fisher判别分析

在分类问题上，Fisher判别分析更早提出

LDA假设了各类样本的协方差矩阵相同且满秩

LDA的形式化表述

$X_i$ 其中 $X_0$ ， $X_1$ 分别代表所有的负样本和正样本

$\mu_0$ 和 $\mu_1$ 分别代表负样本和正样本的均值

$\sum_0$ 和 $\sum_1$ 分别代表负样本和正样本的方差

$\sum_i=\sum_{x \\\in X_i}(x-\mu_i)(x-\mu_i)^T$

在式子的表示中省略掉了 $\frac{1}{m_i}$ ，但是这个系数并不影响LDA的结果

求解 $w$ 向量的时候，为什么只关注于方向而不关心大小

以均值 $\mu_0$ 和 $\mu_1$ 为例，利用模型得到的 $y$ 值本质上是均值对直线的投影

$y=|\mu| cos\theta$

说明直线的向量最主要的是影响方向，真正影响长度的是你向量本身。所以直线的向量的大小并不是关键因素

损失函数的推导

异类样本中心尽可能远

$|\mu_0|\cdot cos\theta_0 - |\mu_1|\cdot cos\theta_1||_2^2$

为了方便后续进行计算推导，同时不关心 $w$ 的大小，所以可以乘以 $∣ w ∣$

$\max \left\||\boldsymbol{w}| \cdot\left|\boldsymbol{\mu}_{0}\right| \cdot \cos \theta_{0}-|\boldsymbol{w}| \cdot\left|\boldsymbol{\mu}_{1}\right| \cdot \cos \theta_{1}\right\|_{2}^{2}$

就可以将这个式子，转换为向量内积的形式

$\max \left\|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{0}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{1}\right\|_{2}^{2}$

同类样本方差尽可能小

$\min \boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_{0} \boldsymbol{w}$

解释下为什么这种形式表示为方差
具体式子展开如下
其实这个式子是在投影维度上考虑的方差形式

$\begin{aligned} \boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_{0} \boldsymbol{w} &=\boldsymbol{w}^{\mathrm{T}}\left(\sum_{\boldsymbol{x} \in X_{0}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}}\right) \boldsymbol{w} \\ &=\sum_{\boldsymbol{x} \in X_{0}}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{0}\right)\left(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{w}-\boldsymbol{\mu}_{0}^{\mathrm{T}} \boldsymbol{w}\right) \end{aligned}$

其中 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{0}$ 代表的就是投影长度之间的
$\left(w^{\top} x-w^{\top} \mu_{0}\right)^{2}$ 形式就是类似于 $(x-\bar{x})^{2}$ 方差的形式

二范数

$\|x\|_{2}=\left(\left|x_{1}\right|^{2} \left|x_{2}\right|^{2} \cdots \left|x_{n}\right|^{2}\right)^{1 / 2}$

拉格朗日乘子法

$\begin{array}{cl} \min _{\boldsymbol{x}} & f(\boldsymbol{x}) \\ \text { s.t. } & h_{i}(\boldsymbol{x})=0 \quad i=1,2, \ldots, n \end{array}$

其中自变量 $\boldsymbol{x} \in \mathbb{R}^{n}, f(\boldsymbol{x}) 和 h_{i}(\boldsymbol{x})$ 均有连续的一阶偏导数。首先列出其拉格朗日函数：

$L(\boldsymbol{x}, \boldsymbol{\lambda})=f(\boldsymbol{x}) \sum_{i=1}^{n} \lambda_{i} h_{i}(\boldsymbol{x})$

其中 $\boldsymbol{\lambda}=\left(\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n}\right)^{\mathrm{T}}$ 为拉格朗日乘子。然后对拉格朗日函数关于 $\boldsymbol{x}$ 求偏导, 并令导数等于 $\mathbf{0}$ 再搭配约束条件 $h_{i}(\boldsymbol{x})=0$ 解出 $\boldsymbol{x}$ , 求解出的所有 $\boldsymbol{x}$ 即为上述优化问题的所有可能【极值点】

极值点中存在最大值和最小值

最终损失函数的式子

$\begin{aligned} \max J &=\frac{\left\|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{0}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{1}\right\|_{2}^{2}}{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_{0} \boldsymbol{w} \boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_{1} \boldsymbol{w}} \\ &=\frac{\left\|\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{0}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{1}\right)^{\mathrm{T}}\right\|_{2}^{2}}{\boldsymbol{w}^{\mathrm{T}}\left(\boldsymbol{\Sigma}_{0} \boldsymbol{\Sigma}_{1}\right) \boldsymbol{w}} \\ &=\frac{\left\|\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}\right\|_{2}^{2}}{\boldsymbol{w}^{\mathrm{T}}\left(\boldsymbol{\Sigma}_{0} \boldsymbol{\Sigma}_{1}\right) \boldsymbol{w}} \\ &=\frac{\left[\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}\right]^{\mathrm{T}}\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}}{\boldsymbol{w}^{\mathrm{T}}\left(\boldsymbol{\Sigma}_{0} \boldsymbol{\Sigma}_{1}\right) \boldsymbol{w}} \\ &=\frac{\boldsymbol{w}^{\mathrm{T}}\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}}{\boldsymbol{w}^{\mathrm{T}}\left(\boldsymbol{\Sigma}_{0} \mathbf{\Sigma}_{1}\right) \boldsymbol{w}} \end{aligned}$

为了方便记录和讨论

设定 $S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$ , $S_w=(\sum_0 \sum_1)$

式子表示为

$\max J=\frac{\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w}}{\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}}$

下一步进行求解时，由于 $w$ 的长度完全不影响结果，所以可以先将 $w$ 固定，添加约束 $\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}=1$

通常优化问题中都考虑最小化问题，所以将式子转换为

$\begin{array}{cl} \min _{\boldsymbol{w}} & -\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w} \\ \text { s.t. } & \boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}=1 \end{array}$

求解 $w$

$\begin{array}{cl} \min _{\boldsymbol{w}} & -\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w} \\ \text { s.t. } & \boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}=1 \Leftrightarrow \boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}-1=0 \end{array}$

由拉格朗日乘子法可得拉格朗日函数为

$L(\boldsymbol{w}, \lambda)=-\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w} \lambda\left(\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}-1\right)$

利用矩阵微分公式，对 $\boldsymbol{w}$ 求偏导可得

$\begin{aligned} \frac{\partial L(\boldsymbol{w}, \lambda)}{\partial \boldsymbol{w}} &=-\frac{\partial\left(\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w}\right)}{\partial \boldsymbol{w}} \lambda \frac{\partial\left(\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}-1\right)}{\partial \boldsymbol{w}} \\ &=-\left(\mathbf{S}_{b} \mathbf{S}_{b}^{\mathrm{T}}\right) \boldsymbol{w} \lambda\left(\mathbf{S}_{w} \mathbf{S}_{w}^{\mathrm{T}}\right) \boldsymbol{w} \end{aligned}$

由于 $S_b$ 和 $S_w$ 都对称 $\mathbf{S}_{b}=\mathbf{S}_{b}^{\mathrm{T}}, \mathbf{S}_{w}=\mathbf{S}_{w}^{\mathrm{T}}$ , 所以

$\frac{\partial L(\boldsymbol{w}, \lambda)}{\partial \boldsymbol{w}}=-2 \mathbf{S}_{b} \boldsymbol{w} 2 \lambda \mathbf{S}_{w} \boldsymbol{w}$

令上面的式子为0，即可得到

$\mathbf{S}_{b} \boldsymbol{w}=\lambda \mathbf{S}_{w} \boldsymbol{w}$

将 $S_b$ 展开后，可以得到

$\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}=\lambda \mathbf{S}_{w} \boldsymbol{w}$

$\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}$ 为行向量和列向量相乘，所以可以令 $\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}=\gamma$

将式子进行整理，得到

$\boldsymbol{w}=\frac{\gamma}{\lambda} \mathbf{S}_{w}^{-1}\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)$

正常在利用拉格朗日乘子法进行求解的时候需要考虑约束条件，由于不关系 $w$ 的大小，会关心方向，所以隐含的没有考虑，同时 $\gamma$ 只受 $w$ 影响， $\lambda$ 未知但是固定，所以令 $\frac{\gamma}{\lambda}=1$

论证为什么使用拉格朗日乘子法求出的极值点 $w$ 一定是最小值点

$\mu_0$ 和 $\mu_1$ 投影后一定存在最大值和最小值

同时 $-\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w}=-\left\|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{0}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{1}\right\|_{2}^{2} \leqslant 0$

所以当求出的极值点代入到目标函数的式子中，不为0的点就是最小值点

拓展到多线性判别分析

$W=(w_1,w_2,...,w_n)$

$S_b(w_1,w_2,...,w_3)=\lambda S_w(w_1,w_2,...,w_3)$

$S_bw_1=\lambda S_ww_1$

相当于是 $n$ 个二分类的线性判别问题

补充数学知识

广义特征值

$Ax=\lambda x$ ，普通求特征值

$Ax=\lambda B x$ , 广义特征值

其中 $A$ 和 $B$ 为 $n$ 阶方阵，称 $\lambda$ 为 $A$ 相对于 $B$ 的广义特征值

$x$ 为 $A$ 相对于 $B$ 的属于广义特征值 $\lambda$ 的特征向量

广义瑞利商

设 $\mathbf{A}, \mathbf{B}$ 为 $n$ 阶厄米 (Hermitian) 矩阵, 且 $\mathbf{B}$ 正定, 称 $R(\boldsymbol{x})=\frac{\boldsymbol{x}^{\mathrm{H}} \mathbf{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \mathbf{B} \boldsymbol{x}}(\boldsymbol{x} \neq \mathbf{0})$ 为 $\mathbf{A}$ 相对于 $\mathbf{B}$ 的广义瑞利商。特别地, 当 $\mathbf{B}=\mathbf{I}$ (单位矩阵) 时, 广义瑞利商退化为瑞利商。

(这里可以先简单理解为厄米矩阵是对称矩阵)

广义瑞利商的性质：设 $\lambda_{i}, \boldsymbol{x}_{i}(i=1,2, \ldots, n)$ 为 $\mathbf{A}$ 相对于 $\mathbf{B}$ 的广义特征值和特征向量, 且 $\lambda_{1} \leqslant \lambda_{2} \leqslant \ldots \leqslant \lambda_{n} $。

$\begin{array}{l} \min _{\boldsymbol{x} \neq \mathbf{0}} R(\boldsymbol{x})=\frac{\boldsymbol{x}^{\mathrm{H}} \mathbf{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \mathbf{B} \boldsymbol{x}}=\lambda_{1}, \boldsymbol{x}^{*}=\boldsymbol{x}_{1} \\ \max _{\boldsymbol{x} \neq \mathbf{0}} R(\boldsymbol{x})=\frac{\boldsymbol{x}^{\mathrm{H}} \mathbf{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \mathbf{B} \boldsymbol{x}}=\lambda_{n}, \boldsymbol{x}^{*}=\boldsymbol{x}_{n} \end{array}$

【证明】：当固定 $\boldsymbol{x}^{\mathrm{H}} \mathbf{B} \boldsymbol{x}=1$ 时，使用拉格朗日乘子法可推得 $\mathbf{A} \boldsymbol{x}=\lambda \mathbf{B} \boldsymbol{x}$ 这样一个广义特征值问题, 因此 $\boldsymbol{x}$ 所有可能的解即为 $\boldsymbol{x}_{i}(i=1,2, \ldots, n)$ 这 $\mathrm{n}$ 个广义特征向量, 将其分别代入 $R(\boldsymbol{x})$ 即可推得上述结论。

其实也就是将特征值由小到大排列，然后需要几个解，就按照顺序取几个特征值对应的特征向量

参考资料

[1]周志华. 《机器学习》[J]. 中国民商, 2016, 03(No.21):93-93.
[2]机器学习公式详解

这篇好文章是转载于：学新通技术网

机器学习-西瓜书-第3章-线性回归-学习笔记-下

3.3 对数几率回归

损失函数的推导

极大似然估计角度

信息论角度

3.4 线性判别分析

损失函数的推导

补充数学知识

参考资料

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

Android 11 保存文件到外部存储，并分享文件

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开