Book Summary

《Reinforcement Learning An Introduction》Summary

第一章：强化学习问题（The Reinforcement Learning Problem）详细讲解 1. 引言：从交互中学习强化学习的核心思想源于我们日常生活中的一种学习方式：通过与环境的交互，根据结果调整行为，从而达成某种目标。例如，一个婴儿通过挥动手臂、观察周围，逐渐学会抓握物体；我们学开车时，通过不断尝试和调整，最终能够平稳驾驶。这种“从交互中学习”的模式，正是强化学习研究的起点。定义：强化学习（Reinforcement Learning, RL）是机器学习的一个分支，研究智能体（agent）如何在与环境（environment）的交互中，通过试错（trial and error）来学习最优行为策略，以最大化累积的奖励信号（reward signal）。 2. 强化学习的基本特征与常见的监督学习和无监督学习相比，强化学习有三个关键特点：闭环性（closed-loop）：智能体的动作会影响它后续接收到的输入（状态），形成一个动态的交互循环。没有直接的指导信号：智能体不会被明确告知“该怎么做”，而是通过尝试不同动作，观察获得的奖励来推断哪些行为更好。延迟奖励（delayed reward）：当前的动作不仅影响立即奖励，还可能影响未来很长一段时间内的奖励。例如，下棋时某一步看似无关紧要，但可能最终决定胜负。这些特点共同构成了强化学习问题的独特挑战，其中**探索与利用的权衡（exploration-exploitation trade-off）**尤为关键：利用（exploitation）：选择当前已知能带来高奖励的动作。探索（exploration）：尝试未知的动作，以获取更多信息，可能发现更优的策略。两者必须平衡，否则要么固守次优方案，要么因过度探索而损失累积奖励。 3. 强化学习的核心要素一个典型的强化学习系统包含以下四个基本要素： 3.1 策略（Policy）定义：策略是智能体在给定状态下选择动作的规则。它可以是简单的查找表（如每个状态对应一个动作），也可以是复杂的函数（如神经网络）。数学表示：通常用 $\pi$ 表示，$\pi(a|s)$ 表示在状态 $s$ 下选择动作 $a$ 的概率（确定性策略则概率为1）。作用：策略决定了智能体的行为，是强化学习最终要学习的目标。 3.2 奖励信号（Reward Signal）定义：在每个时间步，环境向智能体发送一个标量数值，称为奖励 $R_t$。智能体的目标是最大化长期累积奖励。作用：奖励定义了问题的目标，即什么是对智能体“好”的事件。它提供了立即反馈，是策略改进的依据。注意：奖励是来自环境的信号，智能体不能主动改变它，只能通过改变行为间接影响它。 3.3 价值函数（Value Function）定义：价值函数 $v(s)$ 或 $q(s,a)$ 表示从某个状态（或状态-动作对）出发，按照某一策略行动，所能获得的期望累积奖励（即长期“好坏”的度量）。与奖励的区别：奖励是即时的、局部的，而价值是长期的、累积的预测。智能体做决策时，更应依据价值而非立即奖励。例如，一个状态可能立即奖励很低，但它能导向高奖励的未来状态，因此该状态的价值高。重要性：几乎所有的强化学习算法都围绕如何准确估计价值函数展开，它是算法设计中最核心的部分。 3.4 环境模型（Model of the Environment）（可选）定义：模型是对环境动态特性的模拟，能够预测给定状态和动作后，下一步的状态和奖励。分类：基于模型的方法（model-based）：利用模型进行规划（planning），即在决策前模拟未来可能的情况。无模型方法（model-free）：不显式建模环境，直接通过试错学习价值函数或策略。作用：模型可以加速学习，但构建准确的模型通常很困难。 4. 强化学习问题的数学框架（初步）虽然完整的马尔可夫决策过程（MDP）在第3章才正式引入，但本章给出了基本概念： ...

《Probabilistic Machine Learning: An Introduction》Summary

Anki 卡片第1章“Introduction”详细讲解本章是《Probabilistic Machine Learning: An Introduction》的开篇，旨在为读者建立机器学习的基本框架，定义核心概念，介绍三种主要的学习范式（监督学习、无监督学习、强化学习），并讨论数据预处理和常见数据集。本章内容为全书后续章节奠定基础，强调概率视角在机器学习中的核心地位。 1.1 什么是机器学习？定义：一个计算机程序从经验 $E$ 中学习，针对某类任务 $T$ 和性能度量 $P$，如果它在任务 $T$ 上的性能（以 $P$ 衡量）随着经验 $E$ 而提高。（Tom Mitchell）解释：任务 $T$：系统要完成的目标（例如分类、回归）。经验 $E$：训练数据或交互历史。性能 $P$：衡量任务完成质量的指标（如准确率、均方误差）。概率视角：本书将所有未知量（如未来预测、模型参数）视为随机变量，用概率分布描述其不确定性。这种视角的优势在于：它是处理不确定性的最优决策框架（第5章）。它是连接机器学习与统计学、信息论、控制论等其他科学领域的统一语言。 1.2 监督学习监督学习是最常见的机器学习形式。其核心是学习一个从输入 $x \in \mathcal{X}$ 到输出 $y \in \mathcal{Y}$ 的映射 $f$，基于已知的输入-输出对训练集 $\mathcal{D} = \{(x_n, y_n)\}_{n=1}^N$。 ...

PRML Summary

Anki 卡片《模式识别与机器学习》（PRML）第1章“引言”教学讲解 1. 本章概述与学习目标第1章是全书的总纲，作者 Christopher M. Bishop 在这一章中系统地介绍了模式识别和机器学习的核心思想、数学工具以及基本框架。本章不涉及复杂的技术细节，而是为后续各章奠定概念基础和提供统一的视角。学习本章后，你应该能够：理解模式识别的基本问题：从数据中自动发现规律并用于预测或决策。掌握概率论在不确定性建模中的核心作用。区分不同学习类型（监督学习、无监督学习、强化学习）。通过多项式曲线拟合的例子，理解模型复杂度、过拟合与泛化、正则化等关键概念。了解贝叶斯方法的基本思想及其与最大似然估计的区别。掌握决策理论的基本框架（风险最小化、推断与决策分离）。理解信息论中的熵、相对熵（KL散度）和互信息，并知道它们与最大似然的关系。初步了解维度灾难及其对高维数据建模的影响。本章的内容是后续所有章节的基础，特别是概率论、决策理论和信息论的工具将在全书反复使用。 2. 由浅入深：从模式识别问题到核心概念 2.1 什么是模式识别？定义：模式识别是使用计算机算法自动发现数据中的规律，并利用这些规律执行分类、回归等任务的过程。例子：识别手写数字（如图1.1所示）。每个数字图像是一个28×28像素的向量 $\mathbf{x}$，我们希望通过学习一组带标签的样本（训练集）构建一个函数 $y(\mathbf{x})$，使其能够对新图像预测正确的数字类别0-9。关键术语：输入变量：$\mathbf{x}$，通常是一个向量（特征）。目标变量：$t$，可以是离散的类别标签（分类问题）或连续的实数值（回归问题）。训练集：$\{\mathbf{x}_n, t_n\}_{n=1}^N$，用于训练模型的数据。测试集：独立于训练集的数据，用于评估模型的泛化能力。泛化：模型对未见过的数据正确预测的能力。监督学习：训练数据包含输入和对应的目标值。分类：目标变量为离散类别。回归：目标变量为连续值。无监督学习：训练数据只有输入 $\mathbf{x}_n$，没有目标值，任务包括聚类、密度估计、可视化等。强化学习：通过与环境交互学习最优动作序列，以最大化累积奖励。概念关系图（Mermaid）： ...

The Book of WHY Summary

《The Book of Why》引言“Mind over Data”深度讲解 Anki 卡片引言：为什么我们需要因果思维？本章开篇即点明核心：我们正处在一场科学变革之中——因果推断。这场变革的核心，是让科学能够严谨地回答那些关于“为什么”的问题，而不仅仅是“是什么”或“有多少”。 1. 基础概念：从日常困惑到科学难题核心问题：我们每天都会问“为什么”，比如“为什么我的头痛好了？”、“为什么这家公司的销量上升了？”。这些问题都涉及因果关系。传统科学的困境：尽管人类天生就具备因果思维，但传统科学，尤其是统计学，长期以来却刻意回避谈论因果关系。统计学教科书上最著名的一句话就是：“相关关系不等于因果关系”。这句话固然正确（例如，公鸡打鸣与太阳升起相关，但公鸡不打鸣，太阳照常升起），但它只告诉你什么不是，却没有告诉你什么是。根本原因：科学家缺乏一套数学语言来表达因果关系。用传统的代数方程（如 B = kP 表示气压和气压计读数的关系），你可以随意改写方程（P = B/k），但数学上无法表达“是气压导致气压计变化，而不是反过来”这种强烈的因果信念。这种语言上的缺失，导致因果问题长期被排除在严谨的科学讨论之外。 2. 核心知识点：因果推断的框架这一章的核心是引入了一套全新的、处理因果关系的思维框架和工具。 2.1 关键术语与定义因果推断 (Causal Inference)：一门旨在从数据、假设和知识中，得出关于因果关系（如“X是Y的原因”）的科学。它试图回答那些“为什么”和“如果…会怎样”的问题。因果模型 (Causal Model)：对现实世界因果过程的一种简化表示。它编码了我们关于“什么导致什么”的现有知识。模型的形式可以是：因果图 (Causal Diagram)：用节点（变量）和箭头（因果关系）构成的点-箭头图，直观地表示变量之间的依赖关系。例如，吸烟 → 肺癌。结构方程 (Structural Equations)：用数学方程描述变量之间的函数关系。例如，肺癌发生率 = f(吸烟, 遗传因素)。变量 (Variable)：我们感兴趣的、可以取不同值的量。例如，“是否服药”（是/否）、“血压”（数值）、“寿命”（年数）。 do-算子 (do-operator)：这是因果推断中最重要的符号创新，用 do(X) 表示。它代表了对系统进行干预，即强制将变量 X 设为某个值 x，而不仅仅是被动观察到 X 为 x。观察 (Seeing): P(L | D)，即我们看到某人服用了药物 (D)，他的寿命 (L) 的概率分布。问题在于，服药的人可能本身身体就更好，所以这个概率可能不是由药物导致的。干预 (Doing): P(L | do(D))，即我们强制某人服用药物 (D)，他的寿命 (L) 的概率分布。这消除了自我选择带来的偏差，这才是我们真正想要的药物因果效应。例子：气压计与风暴。看到气压计下降 (P(风暴 | 看到气压计下降)) 会增加风暴的概率。但是，如果我们强制让气压计下降 (do(气压计下降))，比如用真空泵抽气，这绝不会引起风暴。do-算子完美地区分了“观察”和“干预”。反事实 (Counterfactual)：这是因果推理的最高层级。它问的是“如果当初…会怎样？”。定义：想象一个与事实相反的世界，并在这个世界中推断结果。例子：“乔服了药后死了。我想知道，如果他没有服药，他还会活着吗？” (P(乔活着 | 乔服了药, 乔死了, do(乔未服药)))。这个问题无法仅通过观察数据回答，因为它涉及一个没有发生的、反事实的世界。混杂 (Confounding)：一个同时影响原因 (X) 和结果 (Y) 的变量，导致 X 和 Y 之间出现虚假关联的现象。例子：冰激凌销量与犯罪率。两者高度相关，但真正的原因是第三个变量——天气炎热。天气热既导致人们吃更多冰激凌，也可能导致人们情绪烦躁、户外活动增多，从而犯罪率上升。天气就是一个混杂因子。 2.2 核心原理：因果推断引擎本章提出了全书最核心的蓝图：因果推断引擎 (图 I.1)。这个引擎清晰地展示了如何将知识、假设和数据结合起来，以严谨的方式回答因果问题。 ...