5-概率与学习
1. 符号与术语
- 标量scalar:
- 向量vector:
- 矩阵matrix:
, 2维 - 张量tensor:泛化的实数组成的n维数组
工具书:[[matrixcookbook.pdf]]
1.1. 带约束的优化问题
1.2. 不带约束的优化问题
1.3. 凹凸性
1.3.1. 凸函数 convex
1.3.2. 凹函数 concave
1.3.3. 判断凹凸性
- 二阶导数
- 半正定矩阵
1.3.4. 常见例子
1.4. 随机变量的期望
概率密度函数PDF: 连续
概率质量函数PMF: 离散
1.4.1. Jensen’s inequality
- 如果
是随机变量,且 是凸函数,则 - 如果
是随机变量,且 是凹函数,则
1.5. 高斯分布/正态分布
1.5.1. 单变量高斯分布
1.5.2. 多变量高斯分布
- 若d维随机变量
服从高斯分布:
- 概率密度函数PDF
2. 高斯混合模型(Gaussian Mixture Model,GMM)
2.1. 概率密度函数
- 随机变量
表示有 个高斯分布组成
模型参数:
2.2. 将GMM看成图模型
假设随机变量
符合多项式离散分布 取值为i的概率 two-step sampling
- 从
中采样,得到一个值 ,其中( ). 先选择一个高斯分量 - 从第i个高斯分量
得采样
- 从
观测变量由隐藏变量决定,
One-hot: 只有一个位置为1的vector
定义了隐藏变量
2.2.1. 例子
特殊情况,假设
- 找到所有从第i个高斯分量得到的采样,构成子集
- 统计和计算每个高斯分量的参数
#TODO
3. 最大似然估计(Maximum likelihood estimation, MLE)
3.1. 定义
定义: MLE是通过最大化一个似然函数来估计一个概率分布的参数,使得在假定的统计及模型下,观测数据最有可能出现
- 数据已经有了,找到一个最合适的概率模型
似然函数
固定(数据分布假设固定), 看作是 的函数,即为概率密度函数PDF 固定(观测数据固定), 看作是 的函数, 即为似然函数
i.i.d: 独立同分布,从同一个数据分布采样,但是样本点相互独立
- 联合概率可以直接使用乘积表示
为了方便计算取对数, 称为对数似然函数
3.2. 以单高斯模型为例
4. 期望最大化算法 (Expectation-Maximization algorithm,EM)
解决包含两个未知变量的优化问题
4.1. 核心思想
EM算法是一个迭代的方法, 采用最大似然估计MLE对统计模型中的参数进行估计, 特别是针对包含无法观测变量的模型.
通常引入隐含变量后会有两个参数, EM算法首先会固定其中的第一个参数, 然后利用MLE计算第二个参数; 在固定第二个参数, 用MLE估计第一个参数;依次迭代.
左右互博.
4.2. EM算法
E-Step
M-Step
Repeat
4.3. EM优化分析
Jensen不等式得到下界
- 标题: 5-概率与学习
- 作者: Charlie
- 创建于 : 2023-10-24 18:32:00
- 更新于 : 2024-07-05 12:55:04
- 链接: https://chillcharlie357.github.io/posts/ec1919e/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论