LDA & QDA
线性判别分析 & 二次判别分析
Why LDA ?
- stable
- preferred when multipel classes
逻辑斯谛在区分度高时不稳定
逻辑斯谛回归(logistic regression) 当类别区分度高时,特征可以很好的区分类别,此时逻辑斯谛回归会出现完全分离(Complete Separation)或准完全分离(Quasi-complete Separation),此时决策边界完全地区分了类别。
此时,要求对于正类有 ,对于负类有
因为概率为
为了达到1, 需要尽可能大
同时,逻辑斯谛的目标函数是最大化对数似然函数
对数似然函数对 没有限制, 越大,目标函数越大,无法收敛
计算量
当类别大于两类时,逻辑斯谛计算量较大,不如LDA简单
From course
LDA
LDA 来自于 贝叶斯定理
已知先验概率,以此求解后验概率
将贝叶斯公式改写为
- 表示 即先验概率
- 表示 ,是第k类观测的X的密度函数
单个类别
假设 是高斯分布,有(LDA适用于其他分布)
又假设每个类别的方差相等,记作
将代入可得
- 上下的 是一样的,约去
- 拆开e的指数, 是一样的,约去
- 约去之后,下面是一个常数(和固定不变),分类结果() 取决于分子
即,贝叶斯分类器将观测分类到
可以看到,此时的是线性的
假设K = 2, ,则贝叶斯决策边界(概率相同的边界)(令两个相等)
贝叶斯决策边界类别概率相等,产生最少的错误分类
多预测变量
假设X 服从均值不同,协方差矩阵相同的多元高斯分布。
多元高斯分布假设每个预测变量服从正态分布,而且预测变量之间存在相关性
多元高斯分布密度
由于假设的协方差矩阵相同,二次项同样被约去,得到判别函数
仍然线性
QDA
二次判别分析
Quadratic Discriminant Analysis
假设每一类更观测的都服从一个多元高斯分布,且每一类观测都有自己的协方差矩阵。
由于协方差不再能约去,二次判别分析的决策边界不再是线性的
Beyond Course
assumptions
- Both LDA and QDA assume the predictor variables X are drawn from multivariate Gaussian distribution
- LDA assumes equality of covariances among the predictor variables X across all class y. (which relaxed by QDA)
- LDA and QDA require the number of predictor variables to be less than the sample size , (works well when )
Comparing Logistic and DIscriminant Analysis
- When assumptions of Discriminant Analysis happened, LDA&QDA would have better preformance, otherwise logistic may outperforms them
- both of LDA and logistic produce linear decision boundary, so that if decision boundary is non-linear, QDA would be the best