《Reinforcement Learning An Introduction》Summary

第一章:强化学习问题(The Reinforcement Learning Problem)详细讲解 1. 引言:从交互中学习 强化学习的核心思想源于我们日常生活中的一种学习方式:通过与环境的交互,根据结果调整行为,从而达成某种目标。 例如,一个婴儿通过挥动手臂、观察周围,逐渐学会抓握物体;我们学开车时,通过不断尝试和调整,最终能够平稳驾驶。这种“从交互中学习”的模式,正是强化学习研究的起点。 定义:强化学习(Reinforcement Learning, RL)是机器学习的一个分支,研究智能体(agent)如何在与环境(environment)的交互中,通过试错(trial and error)来学习最优行为策略,以最大化累积的奖励信号(reward signal)。 2. 强化学习的基本特征 与常见的监督学习和无监督学习相比,强化学习有三个关键特点: 闭环性(closed-loop):智能体的动作会影响它后续接收到的输入(状态),形成一个动态的交互循环。 没有直接的指导信号:智能体不会被明确告知“该怎么做”,而是通过尝试不同动作,观察获得的奖励来推断哪些行为更好。 延迟奖励(delayed reward):当前的动作不仅影响立即奖励,还可能影响未来很长一段时间内的奖励。例如,下棋时某一步看似无关紧要,但可能最终决定胜负。 这些特点共同构成了强化学习问题的独特挑战,其中**探索与利用的权衡(exploration-exploitation trade-off)**尤为关键: 利用(exploitation):选择当前已知能带来高奖励的动作。 探索(exploration):尝试未知的动作,以获取更多信息,可能发现更优的策略。 两者必须平衡,否则要么固守次优方案,要么因过度探索而损失累积奖励。 3. 强化学习的核心要素 一个典型的强化学习系统包含以下四个基本要素: 3.1 策略(Policy) 定义:策略是智能体在给定状态下选择动作的规则。它可以是简单的查找表(如每个状态对应一个动作),也可以是复杂的函数(如神经网络)。 数学表示:通常用 $\pi$ 表示,$\pi(a|s)$ 表示在状态 $s$ 下选择动作 $a$ 的概率(确定性策略则概率为1)。 作用:策略决定了智能体的行为,是强化学习最终要学习的目标。 3.2 奖励信号(Reward Signal) 定义:在每个时间步,环境向智能体发送一个标量数值,称为奖励 $R_t$。智能体的目标是最大化长期累积奖励。 作用:奖励定义了问题的目标,即什么是对智能体“好”的事件。它提供了立即反馈,是策略改进的依据。 注意:奖励是来自环境的信号,智能体不能主动改变它,只能通过改变行为间接影响它。 3.3 价值函数(Value Function) 定义:价值函数 $v(s)$ 或 $q(s,a)$ 表示从某个状态(或状态-动作对)出发,按照某一策略行动,所能获得的期望累积奖励(即长期“好坏”的度量)。 与奖励的区别:奖励是即时的、局部的,而价值是长期的、累积的预测。智能体做决策时,更应依据价值而非立即奖励。例如,一个状态可能立即奖励很低,但它能导向高奖励的未来状态,因此该状态的价值高。 重要性:几乎所有的强化学习算法都围绕如何准确估计价值函数展开,它是算法设计中最核心的部分。 3.4 环境模型(Model of the Environment)(可选) 定义:模型是对环境动态特性的模拟,能够预测给定状态和动作后,下一步的状态和奖励。 分类: 基于模型的方法(model-based):利用模型进行规划(planning),即在决策前模拟未来可能的情况。 无模型方法(model-free):不显式建模环境,直接通过试错学习价值函数或策略。 作用:模型可以加速学习,但构建准确的模型通常很困难。 4. 强化学习问题的数学框架(初步) 虽然完整的马尔可夫决策过程(MDP)在第3章才正式引入,但本章给出了基本概念: ...

2026年3月13日 · 31 分钟 · QingGo

《Probabilistic Machine Learning: An Introduction》Summary

Anki 卡片 第1章“Introduction”详细讲解 本章是《Probabilistic Machine Learning: An Introduction》的开篇,旨在为读者建立机器学习的基本框架,定义核心概念,介绍三种主要的学习范式(监督学习、无监督学习、强化学习),并讨论数据预处理和常见数据集。本章内容为全书后续章节奠定基础,强调概率视角在机器学习中的核心地位。 1.1 什么是机器学习? 定义:一个计算机程序从经验 $E$ 中学习,针对某类任务 $T$ 和性能度量 $P$,如果它在任务 $T$ 上的性能(以 $P$ 衡量)随着经验 $E$ 而提高。(Tom Mitchell) 解释: 任务 $T$:系统要完成的目标(例如分类、回归)。 经验 $E$:训练数据或交互历史。 性能 $P$:衡量任务完成质量的指标(如准确率、均方误差)。 概率视角:本书将所有未知量(如未来预测、模型参数)视为随机变量,用概率分布描述其不确定性。这种视角的优势在于: 它是处理不确定性的最优决策框架(第5章)。 它是连接机器学习与统计学、信息论、控制论等其他科学领域的统一语言。 1.2 监督学习 监督学习是最常见的机器学习形式。其核心是学习一个从输入 $x \in \mathcal{X}$ 到输出 $y \in \mathcal{Y}$ 的映射 $f$,基于已知的输入-输出对训练集 $\mathcal{D} = \{(x_n, y_n)\}_{n=1}^N$。 ...

2026年3月12日 · 51 分钟 · QingGo

PRML Summary

Anki 卡片 《模式识别与机器学习》(PRML)第1章“引言”教学讲解 1. 本章概述与学习目标 第1章是全书的总纲,作者 Christopher M. Bishop 在这一章中系统地介绍了模式识别和机器学习的核心思想、数学工具以及基本框架。本章不涉及复杂的技术细节,而是为后续各章奠定概念基础和提供统一的视角。学习本章后,你应该能够: 理解模式识别的基本问题:从数据中自动发现规律并用于预测或决策。 掌握概率论在不确定性建模中的核心作用。 区分不同学习类型(监督学习、无监督学习、强化学习)。 通过多项式曲线拟合的例子,理解模型复杂度、过拟合与泛化、正则化等关键概念。 了解贝叶斯方法的基本思想及其与最大似然估计的区别。 掌握决策理论的基本框架(风险最小化、推断与决策分离)。 理解信息论中的熵、相对熵(KL散度)和互信息,并知道它们与最大似然的关系。 初步了解维度灾难及其对高维数据建模的影响。 本章的内容是后续所有章节的基础,特别是概率论、决策理论和信息论的工具将在全书反复使用。 2. 由浅入深:从模式识别问题到核心概念 2.1 什么是模式识别? 定义:模式识别是使用计算机算法自动发现数据中的规律,并利用这些规律执行分类、回归等任务的过程。 例子:识别手写数字(如图1.1所示)。每个数字图像是一个28×28像素的向量 $\mathbf{x}$,我们希望通过学习一组带标签的样本(训练集)构建一个函数 $y(\mathbf{x})$,使其能够对新图像预测正确的数字类别0-9。 关键术语: 输入变量:$\mathbf{x}$,通常是一个向量(特征)。 目标变量:$t$,可以是离散的类别标签(分类问题)或连续的实数值(回归问题)。 训练集:$\{\mathbf{x}_n, t_n\}_{n=1}^N$,用于训练模型的数据。 测试集:独立于训练集的数据,用于评估模型的泛化能力。 泛化:模型对未见过的数据正确预测的能力。 监督学习:训练数据包含输入和对应的目标值。 分类:目标变量为离散类别。 回归:目标变量为连续值。 无监督学习:训练数据只有输入 $\mathbf{x}_n$,没有目标值,任务包括聚类、密度估计、可视化等。 强化学习:通过与环境交互学习最优动作序列,以最大化累积奖励。 概念关系图(Mermaid): ...

2026年3月9日 · 43 分钟 · QingGo

The Book of WHY Summary

《The Book of Why》引言“Mind over Data”深度讲解 Anki 卡片 引言:为什么我们需要因果思维? 本章开篇即点明核心:我们正处在一场科学变革之中——因果推断。这场变革的核心,是让科学能够严谨地回答那些关于“为什么”的问题,而不仅仅是“是什么”或“有多少”。 1. 基础概念:从日常困惑到科学难题 核心问题: 我们每天都会问“为什么”,比如“为什么我的头痛好了?”、“为什么这家公司的销量上升了?”。这些问题都涉及因果关系。 传统科学的困境: 尽管人类天生就具备因果思维,但传统科学,尤其是统计学,长期以来却刻意回避谈论因果关系。统计学教科书上最著名的一句话就是:“相关关系不等于因果关系”。这句话固然正确(例如,公鸡打鸣与太阳升起相关,但公鸡不打鸣,太阳照常升起),但它只告诉你什么不是,却没有告诉你什么是。 根本原因: 科学家缺乏一套数学语言来表达因果关系。用传统的代数方程(如 B = kP 表示气压和气压计读数的关系),你可以随意改写方程(P = B/k),但数学上无法表达“是气压导致气压计变化,而不是反过来”这种强烈的因果信念。这种语言上的缺失,导致因果问题长期被排除在严谨的科学讨论之外。 2. 核心知识点:因果推断的框架 这一章的核心是引入了一套全新的、处理因果关系的思维框架和工具。 2.1 关键术语与定义 因果推断 (Causal Inference):一门旨在从数据、假设和知识中,得出关于因果关系(如“X是Y的原因”)的科学。它试图回答那些“为什么”和“如果…会怎样”的问题。 因果模型 (Causal Model):对现实世界因果过程的一种简化表示。它编码了我们关于“什么导致什么”的现有知识。模型的形式可以是: 因果图 (Causal Diagram):用节点(变量)和箭头(因果关系)构成的点-箭头图,直观地表示变量之间的依赖关系。例如,吸烟 → 肺癌。 结构方程 (Structural Equations):用数学方程描述变量之间的函数关系。例如,肺癌发生率 = f(吸烟, 遗传因素)。 变量 (Variable):我们感兴趣的、可以取不同值的量。例如,“是否服药”(是/否)、“血压”(数值)、“寿命”(年数)。 do-算子 (do-operator):这是因果推断中最重要的符号创新,用 do(X) 表示。它代表了对系统进行干预,即强制将变量 X 设为某个值 x,而不仅仅是被动观察到 X 为 x。 观察 (Seeing): P(L | D),即我们看到某人服用了药物 (D),他的寿命 (L) 的概率分布。问题在于,服药的人可能本身身体就更好,所以这个概率可能不是由药物导致的。 干预 (Doing): P(L | do(D)),即我们强制某人服用药物 (D),他的寿命 (L) 的概率分布。这消除了自我选择带来的偏差,这才是我们真正想要的药物因果效应。 例子:气压计与风暴。看到气压计下降 (P(风暴 | 看到气压计下降)) 会增加风暴的概率。但是,如果我们强制让气压计下降 (do(气压计下降)),比如用真空泵抽气,这绝不会引起风暴。do-算子完美地区分了“观察”和“干预”。 反事实 (Counterfactual):这是因果推理的最高层级。它问的是“如果当初…会怎样?”。 定义:想象一个与事实相反的世界,并在这个世界中推断结果。 例子:“乔服了药后死了。我想知道,如果他没有服药,他还会活着吗?” (P(乔活着 | 乔服了药, 乔死了, do(乔未服药)))。这个问题无法仅通过观察数据回答,因为它涉及一个没有发生的、反事实的世界。 混杂 (Confounding):一个同时影响原因 (X) 和结果 (Y) 的变量,导致 X 和 Y 之间出现虚假关联的现象。 例子:冰激凌销量与犯罪率。两者高度相关,但真正的原因是第三个变量——天气炎热。天气热既导致人们吃更多冰激凌,也可能导致人们情绪烦躁、户外活动增多,从而犯罪率上升。天气就是一个混杂因子。 2.2 核心原理:因果推断引擎 本章提出了全书最核心的蓝图:因果推断引擎 (图 I.1)。这个引擎清晰地展示了如何将知识、假设和数据结合起来,以严谨的方式回答因果问题。 ...

2026年2月28日 · 23 分钟 · QingGo