Machine Learning

Anki 卡片第1章“Introduction”详细讲解本章是《Probabilistic Machine Learning: An Introduction》的开篇，旨在为读者建立机器学习的基本框架，定义核心概念，介绍三种主要的学习范式（监督学习、无监督学习、强化学习），并讨论数据预处理和常见数据集。本章内容为全书后续章节奠定基础，强调概率视角在机器学习中的核心地位。 1.1 什么是机器学习？定义：一个计算机程序从经验 $E$ 中学习，针对某类任务 $T$ 和性能度量 $P$，如果它在任务 $T$ 上的性能（以 $P$ 衡量）随着经验 $E$ 而提高。（Tom Mitchell）解释：任务 $T$：系统要完成的目标（例如分类、回归）。经验 $E$：训练数据或交互历史。性能 $P$：衡量任务完成质量的指标（如准确率、均方误差）。概率视角：本书将所有未知量（如未来预测、模型参数）视为随机变量，用概率分布描述其不确定性。这种视角的优势在于：它是处理不确定性的最优决策框架（第5章）。它是连接机器学习与统计学、信息论、控制论等其他科学领域的统一语言。 1.2 监督学习监督学习是最常见的机器学习形式。其核心是学习一个从输入 $x \in \mathcal{X}$ 到输出 $y \in \mathcal{Y}$ 的映射 $f$，基于已知的输入-输出对训练集 $\mathcal{D} = \{(x_n, y_n)\}_{n=1}^N$。 ...