第二章:马尔科夫决策过程
Last updated
Was this helpful?
Last updated
Was this helpful?
马尔科夫性:系统的下一个状态仅与当前状态有关,而与之前的状态无关
定义:状态是马尔科夫的,当且仅当。
马尔科夫随机过程:随机变量序列中的每个状态都是马尔科夫的。
马尔科夫过程是一个二元组(S, P), 且满足:S是有限状态集合,P是状态转移概率。
马尔科夫决策过程:将动作(策略)和回报考虑在内的马尔科夫过程成为马尔科夫随机过程。
马尔科夫决策过程由元组描述,其中:
S为有限的状态集
A为有限的动作集
P为状态转移概率
R为回报函数
为折扣因子,用来计算累积回报
强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略。
累积回报:
定义:当智能体采用策略pi时,累积回报服从一个分布,累积回报在状态s处的期望值定义为状态-值函数:
相应的,状态-行为值函数定义为:
状态值函数的贝尔曼方程
状态行为值函数的贝尔曼方程
状态值函数的计算方式
状态行为值函数
因此可以得到最优状态值函数和最优状态-行为值函数的贝尔曼最优方程
强化学习中常采用的随机策略。
(1)贪心策略
(3)高斯策略
(4)玻尔兹曼分布
马尔科夫决策过程的的状态转移概率是包含动作的,即。
最优策略:是指状态到动作的映射,策略通常用符号表示,它是指给定状态时,动作集上的一个分布,即
它的含义是:策略在每个状态指定一个动作概率。如果给出的策略是确定性的,那么策略在每个状态指定一个确定的动作。
(1)状态-值函数:累积回报的期望
最优状态值函数为在所有策略中值最大的值函数,即。
最优状态-行为值函数为在所有策略中最大的状态-行为值函数,即
定义一个离散时间有限范围的折扣马尔科夫决策过程其中为状态集,为动作集,是转移概率, 为立即回报函数,是初始状态分布,是折扣因子,T为水平范围(其实是步数)。为一个轨道序列,即,累积回报为,强化学习的目标就是找到最优策略,使得该策略下的累积回报期望最大,即。
(2)-greedy策略