0-机器学习

Charlie

学习:利用经验改善系统的性能

  • 机器学习:现代特指统计机器学习
    • 任何通过数据训练的学习算法都属于机器学习
  • 学习系统
    • 模型空间
    • 数据
    • 学习算法
    • 学得模型

1. 系统建模和模型选择

1.1. 常用术语和标记

输入:
权重:
输出:
目标:
误差:

维数灾难:随着维数的增加,需要的数据也更多

1.2. 数据集

  • 通常把数据集划分成三种
    • 训练集:训练模型的参数
    • 测试集
    • 验证集
  • 划分方法
    • 留出法
    • 交叉验证法

1.3. 建模要素

模型/函数来源:按照先验做假设

  • 模型/映射函数刻画:
  • 确定目标/损失函数(如平方损失,交叉熵,凸与非凸)并获得优化模型
  • 评测:泛化性能(举一反三能力)

2. 共性问题

过拟合(Over-fitting):在训练样本上表现很好,测试样本误差反而上升
欠拟合(Under-fitting):在测试样本上学得不够
好拟合(Good-fitting)

病态问题:大量甚至无穷拟合函数/模型能满足给定的有限观察

2.1. 模型选择

免费午餐
模型选择:样本有限,先验甚少,因此所有建模没有对的,只有相对好的

  • 方法
    1. 模型选择(直接选择)
    2. 正则化/规整化(给约束)
    3. 模型组合/集成
    4. 多视图(从数据角度)

为什么正则化可用?
意图:病态良态
Tikhonov正则化

2.2. 评价指标

2.2.1. 混淆矩阵

  • 混淆矩阵:
    • 真实类,预测类
    • 常用于多分类问题

二分类问题中:

  • 精度 Accuracy

  • 查准 Precision

  • 查全 Recall
  • 度量

image.png

2.2.2. ROC曲线

受试者工作特征曲线

True Positive R

2.2.3. 不平衡数据集

Matthew相关系数

正例和反例相差巨大,数据特别不平衡

2.3. 测量精度

  • 系统可重复性:类似输入,产生相似的输出
  • 物理意义类似概率分布中方差

2.4. 先验的重要性

  • 结合问题的先验去建模
    • 泛化=数据+知识
  • 输入与输出映射应该光滑
    • 相似输入的输出应该相似

2.5. 丑小鸭定理

没有天生好的特征,只有结合了问题域的知识才是好知识,与问题域有关

3. 统计学概念

3.1. 数据集统计量

  • 均值、中位数、众数
  • 期望
  • 方差、均方差
  • 协方差(covariance)
  • 协方差矩阵
    • 理解对角线和非对角线上值的物理意义,的含义
    • 非对角线,协方差,两个变量的关系

3.2. 距离度量函数

两个样本

  • 欧氏距离
  • 余弦相似度
  • 曼哈顿距离
    • 每次沿坐标轴走一次直线
  • 切比雪夫距离
  • 马氏距离
    • 映射到新的空间

3.3. 高斯分布/正态分布

3.4. 概率

统计学角度:机器学习的目的是得到映射

3.4.1. 概率类型

  • 类的先验概率
    • 先验:不管条件
  • 样本的先验概率
  • 类条件概率(似然
    • 给了类的条件
  • 后验概率
    • 给了一定的输入条件,猜测另一半

3.4.2. 从概率角度对机器学习方法分类

  • 生成式模型
    • 估计,然后贝叶斯定理求
    • 即求xy的联合概率分布
    • 用先验概率和条件算后验
    • 例:朴素贝叶斯
  • 判别式模型
    • 直接估计
    • 判别函数:不假设概率模型,直接求一个把各类分开的边界

朴素贝叶斯

  • 标题: 0-机器学习
  • 作者: Charlie
  • 创建于 : 2023-12-26 19:45:00
  • 更新于 : 2024-07-05 12:55:04
  • 链接: https://chillcharlie357.github.io/posts/bc60674e/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论