Bayes

Anki 卡片《模式识别与机器学习》（PRML）第1章“引言”教学讲解 1. 本章概述与学习目标第1章是全书的总纲，作者 Christopher M. Bishop 在这一章中系统地介绍了模式识别和机器学习的核心思想、数学工具以及基本框架。本章不涉及复杂的技术细节，而是为后续各章奠定概念基础和提供统一的视角。学习本章后，你应该能够：理解模式识别的基本问题：从数据中自动发现规律并用于预测或决策。掌握概率论在不确定性建模中的核心作用。区分不同学习类型（监督学习、无监督学习、强化学习）。通过多项式曲线拟合的例子，理解模型复杂度、过拟合与泛化、正则化等关键概念。了解贝叶斯方法的基本思想及其与最大似然估计的区别。掌握决策理论的基本框架（风险最小化、推断与决策分离）。理解信息论中的熵、相对熵（KL散度）和互信息，并知道它们与最大似然的关系。初步了解维度灾难及其对高维数据建模的影响。本章的内容是后续所有章节的基础，特别是概率论、决策理论和信息论的工具将在全书反复使用。 2. 由浅入深：从模式识别问题到核心概念 2.1 什么是模式识别？定义：模式识别是使用计算机算法自动发现数据中的规律，并利用这些规律执行分类、回归等任务的过程。例子：识别手写数字（如图1.1所示）。每个数字图像是一个28×28像素的向量 $\mathbf{x}$，我们希望通过学习一组带标签的样本（训练集）构建一个函数 $y(\mathbf{x})$，使其能够对新图像预测正确的数字类别0-9。关键术语：输入变量：$\mathbf{x}$，通常是一个向量（特征）。目标变量：$t$，可以是离散的类别标签（分类问题）或连续的实数值（回归问题）。训练集：$\{\mathbf{x}_n, t_n\}_{n=1}^N$，用于训练模型的数据。测试集：独立于训练集的数据，用于评估模型的泛化能力。泛化：模型对未见过的数据正确预测的能力。监督学习：训练数据包含输入和对应的目标值。分类：目标变量为离散类别。回归：目标变量为连续值。无监督学习：训练数据只有输入 $\mathbf{x}_n$，没有目标值，任务包括聚类、密度估计、可视化等。强化学习：通过与环境交互学习最优动作序列，以最大化累积奖励。概念关系图（Mermaid）： ...