11-维度约简
1. 特征选择和降维
- 维度约简
- 特征选择
- 特征变化/诱导
- 目的
- 降维,减少over-fitting风险
- 增加解释性
- 去除冗余特征
1.1. 特征选则
- 搜索问题
- N个原始特征,
非空特征空间,搜索最优的特征子集
- N个原始特征,
- 搜索起点和方向
- 前向(起点为空集)
- 后向(起点为全集)
- 双向
2. 线性判别分析 LDA
- 给定标注了类别的高维数据集,投影到高维的超平面,使得样本点按照类别尽可能最大区分开
2.1. 算法流程
- 计算每个类别的均值
, 全局样本均值 - 计算类内散度矩阵
,类间散度矩阵 - 对矩阵
做特征值分解 - 取最大的几个特征值所对应的特征向量
- 计算投影矩阵
主成分分析 PCA
找到数据中的主要成分,并为之表征数据。
主成分特点
- 最大可分性:样本点在第一主成分上的投影离散程度大于其在第二主成分上的离散程度
- 最近可重构性:样本点到第一主成分线的平均距离都要小于其到第二主成分线的距离
- 最大可分性理论的目标函数
- 最大化样本点在主成分上投影的方差
算法流程
- 样本去中心化
- 每一行减去这一行的均值
- 计算样本的协方差矩阵
- 对协方差矩阵做特征值分解
- 取最大的数个特征值所对应的特征向量
- 计算投影矩阵
ICA
ICA是一个解混的过程,认为矩阵是由多个矩阵线性组合构成。认为数据源都不符合高斯分布,因为要独立,然后混合的数据要符合高斯分布。
假设一个信号S,经过混和矩阵变换为了X=AS。
对X求解混矩阵W,Y=WX
- 标题: 11-维度约简
- 作者: Charlie
- 创建于 : 2023-12-12 18:12:00
- 更新于 : 2024-07-05 12:55:04
- 链接: https://chillcharlie357.github.io/posts/fcf58edf/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论