2-无监督学习
1. 聚类学习
1.1. 相关概念
聚类:数据对象的集合
- 同一个类中,数据对象是相似的
- 反之,不同类不相似
聚类算法
- 根据给定的标准,将数据集划分成几个聚类
划分标准
- 特征向量看成特征空间的点,分类依据为点之间的距离(相似度)
类特征
- 聚类学习中的类不是是先给定,而是根据数据的相似度和距离划分(无监督学习)
- 聚类的数目和结构没有事先给定
聚类的目的
- 潜在的自然分组结构
- 感兴趣的关系
聚类的关键
- 特征的设计和选择
- 距离函数
有效性
- 聚类分析方法是否有效与数据分布有很大关系
- 特征选择很重要,外在表现为数据分布是否可分
2. 距离度量
目的:度量同类样本间的相似度和不同样本间的差异性
2.1. 度量函数和度量空间
数学定义;->并不是所有函数都是度量函数
- 非负性
- 唯一性
- 对称性
- 三角不等式
[[2023Fall/机器学习/0-introduction#距离度量函数|度量函数]]
欧氏距离:两个向量的二范数
曼哈顿距离:一范数
切比雪夫:无穷范数
MInjowski distance
3. 聚类准则
定义例子:设集合S中任意元素
3.1. 试探方法
凭直觉或经验,对实际问题定义一种距离度量的阈值,然后按最邻近规则指定某些样本属于某个聚类类别
3.2. 聚类准则函数方法
一种定义:
4. 聚类方法
- 基于试探的聚类搜索算法
- 系统聚类法
- 动态聚类法
4.1. 基于试探的聚类搜索算法
按最近邻规则的简单试探法
基于最大最小距离的试探法
4.2. 系统聚类法
将数据样本按照距离准则逐步分类,类别分别由多到少,直到获得合适的分类要求为止。
4.2.1. 算法流程
4.2.2. 距离准则函数
计算类与类之间的距离。
- 主要计算准则
- 最短距离 (两个集合所有距离最小值)
- 最长距离(两个集合所有距离最大值)
- 类平均距离(所有距离平均值)
4.3. 动态聚类法
4.3.1. 基本思想
- 首先选择若干个样本点作为聚类中心,再按照某种准则使得样本点向各中心聚集,从而获得初始聚类;
- 然后判断初始分类是否合理,不合理则修改;
- 如此反复修改聚类
4.3.2. K-means算法
算法过程:
- 选择一个聚类数量k
- 初始化聚类中心
- 随机选择k个样本点,设置这些样本点为中心
- 对每个样本点,计算样本点到k个聚类中心的距离(某种距离度量方法),将样本点分配到距离它最近的聚类中心的聚类
- 重新计算聚类中心,聚类中心为属于这一聚类的所有样本的均值
- 如果没有发生样本所属的聚类发生变化的情况,则退出;否则,返回step3继续。
- 影响因素
- k值
- 初始聚类中心
- 样本的几何分布
实际应用中,需要试探不同的k值和选择不同的聚类中心的起始值。
每次运行结果可能完全不一样,可以固定种子把随机数固定下来。
k-means算法比较适用于分类数目已知的情况
4.3.3. k-means++算法
基本思想:K个初始聚类中心相互分得越开越好(不再随机选择初始的k个聚类中心)
算法过程:
- 从数据集中随机选取一个样本作为初始聚类中心
- 首先计算每个样本与当前已有的聚类中心之间的最短距离(即与最近的一个聚类中心的距离)
;接着计算每个样本被选为下一个聚类中心的概率为 。最后,按照轮盘发选择出下一个聚类中心 - 重复第2步知道选择出
个聚类中心 - 之后步骤与K-means算法中的2-4步相同
4.3.4. ISODATA算法
有分裂/合并操作
算法过程:
- 从数据集随机选取
个样本作为初始聚类中心 - 对每个样本
,计算它到 个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中 - 判断上述每个类中的元素数目是否少于
。如果小于,则需要丢弃该类,令 ,并把该类的样本重新分配到剩下类中距离最小的类 - 针对每个
重新计算聚类中心 - 如果
,说明当前类别数太少,分裂 - 如果
,说明当前类别数太少,合并 - 如果达到最大迭代次数则终止,否则回到2
合并:
- 计算当前所有类别的聚类中心两两之间的距离,用矩阵D表示,其中
- 对于
的两个类别需要进行的合并操作,变成一个新的类,该类的聚类中心位置为: - 两个类别加权求和
两个类别允许最小距
分类:
- 计算每个类别下所有样本在每个维度下的方差
- 针对每个类别的所有方差挑出最大的方差
- 如果某个类别
并且岩本数量 则可以分裂 - 满足第3步条件的类分成两个子类并令
- 新聚类的中心位置:
最大方差Sigma:衡量样本分散程度
- 新聚类的中心位置:
4.4. 比较
- K-means通常适用于类别数目已知的聚类,ISODATA更灵活
- ISODATA算法与K-means算法相似,聚类中心都是样本均值的迭代运算决定的
- 都需要合理选择超参数
5. 聚类评价
考虑从一下几个指标评价聚类效果:
- 聚类中心之间的距离
- 聚类域的样本数目
- 聚类域内的样本距离方差
紧密度:
间隔度:
DBI:max含义->看最差的情况
DVI
- 标签已知时的评价标准:
- P61
6. 自监督学习
无监督学习的一种形式,没有人类标注的监督信息
需要定义一个前置(借口)任务,让网络学习我们关心的事情
对于大部分前置任务,需要保留一部分数据,让网络学会预测
通过前置任务学习到的特征会被用到不同的下游任务(通常包含标注)
分类
- 前置任务学习
- 生成式方法:图像着色、修复
- 对比学习
- 非对比学习
- 前置任务学习
6.1. 前置任务学习
6.1.1. 生成式方法-图像着色
$x \rightarrow CNN \rightarrow \overline{x}^$ 输入$(x,\overline{x})$ 即(灰度化后的图像,原本的彩色图像) $lose=||\overline{x}^
-\overline{x}||$,对比生产的彩色图像和原本彩色图像
数据里没有监督信息,构造假的监督信号
- 标题: 2-无监督学习
- 作者: Charlie
- 创建于 : 2023-10-10 18:22:00
- 更新于 : 2024-07-05 12:55:04
- 链接: https://chillcharlie357.github.io/posts/18c82724/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。