5-概率与学习

Charlie

1. 符号与术语

  • 标量scalar:
  • 向量vector:
  • 矩阵matrix:, 2维
  • 张量tensor:泛化的实数组成的n维数组

工具书:[[matrixcookbook.pdf]]

1.1. 带约束的优化问题

image.png

1.2. 不带约束的优化问题

image.png

1.3. 凹凸性

1.3.1. 凸函数 convex

是一个凸集合,表示定义在上的一个函数:

image.png

1.3.2. 凹函数 concave

是一个凸集合,表示定义在上的一个函数:

image.png

1.3.3. 判断凹凸性

  • 二阶导数

  • 半正定矩阵

1.3.4. 常见例子

image.png

1.4. 随机变量的期望

概率密度函数PDF: 连续
概率质量函数PMF: 离散

image.png

1.4.1. Jensen’s inequality

  • 如果是随机变量,且是凸函数,则
  • 如果是随机变量,且是凹函数,则

image.png

1.5. 高斯分布/正态分布

1.5.1. 单变量高斯分布

image.png

1.5.2. 多变量高斯分布

  • 若d维随机变量服从高斯分布:

为均值向量
为协方差矩阵

  • 概率密度函数PDF

image.png

2. 高斯混合模型(Gaussian Mixture Model,GMM)

2.1. 概率密度函数

  • 随机变量
  • 表示有个高斯分布组成

模型参数:, 可以在模型的训练过程中确定

2.2. 将GMM看成图模型

  • 假设随机变量符合多项式离散分布

  • 取值为i的概率

  • two-step sampling

    1. 中采样,得到一个值,其中(). 先选择一个高斯分量
    2. 从第i个高斯分量得采样

image.png

观测变量由隐藏变量决定,一一对应

One-hot: 只有一个位置为1的vector

代表属于哪个高斯分布,因为一个具体样本点不可能同时来自多个分布, 只是多个分布的数据混合之后分布表示更复杂

定义了隐藏变量后,问题变成了如何从和可观测的变量估计

2.2.1. 例子

特殊情况,假设已知,如何估计参数?

  1. 找到所有从第i个高斯分量得到的采样,构成子集
  2. 统计和计算每个高斯分量的参数

#TODO

3. 最大似然估计(Maximum likelihood estimation, MLE)

3.1. 定义

  • 定义: MLE是通过最大化一个似然函数来估计一个概率分布的参数,使得在假定的统计及模型下,观测数据最有可能出现

    • 数据已经有了,找到一个最合适的概率模型
  • 似然函数

    • 固定(数据分布假设固定),看作是的函数,即为概率密度函数PDF
    • 固定(观测数据固定),看作是的函数, 即为似然函数
  • i.i.d: 独立同分布,从同一个数据分布采样,但是样本点相互独立

    • 联合概率可以直接使用乘积表示

image.png

为了方便计算取对数, 称为对数似然函数

3.2. 以单高斯模型为例

image.png

4. 期望最大化算法 (Expectation-Maximization algorithm,EM)

解决包含两个未知变量的优化问题

4.1. 核心思想

EM算法是一个迭代的方法, 采用最大似然估计MLE对统计模型中的参数进行估计, 特别是针对包含无法观测变量的模型.

通常引入隐含变量后会有两个参数, EM算法首先会固定其中的第一个参数, 然后利用MLE计算第二个参数; 在固定第二个参数, 用MLE估计第一个参数;依次迭代.

左右互博.

4.2. EM算法

E-Step

M-Step

Repeat

4.3. EM优化分析

image.png

Jensen不等式得到下界

  • 标题: 5-概率与学习
  • 作者: Charlie
  • 创建于 : 2023-10-24 18:32:00
  • 更新于 : 2024-07-05 12:55:04
  • 链接: https://chillcharlie357.github.io/posts/ec1919e/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论