《Reinforcement Learning An Introduction》Summary

第一章:强化学习问题(The Reinforcement Learning Problem)详细讲解 1. 引言:从交互中学习 强化学习的核心思想源于我们日常生活中的一种学习方式:通过与环境的交互,根据结果调整行为,从而达成某种目标。 例如,一个婴儿通过挥动手臂、观察周围,逐渐学会抓握物体;我们学开车时,通过不断尝试和调整,最终能够平稳驾驶。这种“从交互中学习”的模式,正是强化学习研究的起点。 定义:强化学习(Reinforcement Learning, RL)是机器学习的一个分支,研究智能体(agent)如何在与环境(environment)的交互中,通过试错(trial and error)来学习最优行为策略,以最大化累积的奖励信号(reward signal)。 2. 强化学习的基本特征 与常见的监督学习和无监督学习相比,强化学习有三个关键特点: 闭环性(closed-loop):智能体的动作会影响它后续接收到的输入(状态),形成一个动态的交互循环。 没有直接的指导信号:智能体不会被明确告知“该怎么做”,而是通过尝试不同动作,观察获得的奖励来推断哪些行为更好。 延迟奖励(delayed reward):当前的动作不仅影响立即奖励,还可能影响未来很长一段时间内的奖励。例如,下棋时某一步看似无关紧要,但可能最终决定胜负。 这些特点共同构成了强化学习问题的独特挑战,其中**探索与利用的权衡(exploration-exploitation trade-off)**尤为关键: 利用(exploitation):选择当前已知能带来高奖励的动作。 探索(exploration):尝试未知的动作,以获取更多信息,可能发现更优的策略。 两者必须平衡,否则要么固守次优方案,要么因过度探索而损失累积奖励。 3. 强化学习的核心要素 一个典型的强化学习系统包含以下四个基本要素: 3.1 策略(Policy) 定义:策略是智能体在给定状态下选择动作的规则。它可以是简单的查找表(如每个状态对应一个动作),也可以是复杂的函数(如神经网络)。 数学表示:通常用 $\pi$ 表示,$\pi(a|s)$ 表示在状态 $s$ 下选择动作 $a$ 的概率(确定性策略则概率为1)。 作用:策略决定了智能体的行为,是强化学习最终要学习的目标。 3.2 奖励信号(Reward Signal) 定义:在每个时间步,环境向智能体发送一个标量数值,称为奖励 $R_t$。智能体的目标是最大化长期累积奖励。 作用:奖励定义了问题的目标,即什么是对智能体“好”的事件。它提供了立即反馈,是策略改进的依据。 注意:奖励是来自环境的信号,智能体不能主动改变它,只能通过改变行为间接影响它。 3.3 价值函数(Value Function) 定义:价值函数 $v(s)$ 或 $q(s,a)$ 表示从某个状态(或状态-动作对)出发,按照某一策略行动,所能获得的期望累积奖励(即长期“好坏”的度量)。 与奖励的区别:奖励是即时的、局部的,而价值是长期的、累积的预测。智能体做决策时,更应依据价值而非立即奖励。例如,一个状态可能立即奖励很低,但它能导向高奖励的未来状态,因此该状态的价值高。 重要性:几乎所有的强化学习算法都围绕如何准确估计价值函数展开,它是算法设计中最核心的部分。 3.4 环境模型(Model of the Environment)(可选) 定义:模型是对环境动态特性的模拟,能够预测给定状态和动作后,下一步的状态和奖励。 分类: 基于模型的方法(model-based):利用模型进行规划(planning),即在决策前模拟未来可能的情况。 无模型方法(model-free):不显式建模环境,直接通过试错学习价值函数或策略。 作用:模型可以加速学习,但构建准确的模型通常很困难。 4. 强化学习问题的数学框架(初步) 虽然完整的马尔可夫决策过程(MDP)在第3章才正式引入,但本章给出了基本概念: ...

2026年3月13日 · 31 分钟 · QingGo