2.1 马尔科夫决策过程理论讲解
马尔科夫性
马尔科夫性:系统的下一个状态st+1仅与当前状态st有关,而与之前的状态无关
定义:状态st是马尔科夫的,当且仅当P[st+1∣st]=P[st+1∣s1,...,st]。
马尔科夫随机过程:随机变量序列中的每个状态都是马尔科夫的。
马尔科夫过程
马尔科夫过程是一个二元组(S, P), 且满足:S是有限状态集合,P是状态转移概率。
马尔科夫决策过程:将动作(策略)和回报考虑在内的马尔科夫过程成为马尔科夫随机过程。
马尔科夫决策过程
马尔科夫决策过程由元组(S,A,P,R,γ)描述,其中:
马尔科夫决策过程的的状态转移概率是包含动作的,即Pss′a=p[St+1=s′∣St=s,At=a]。
强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略。
最优策略:是指状态到动作的映射,策略通常用符号π表示,它是指给定状态s时,动作集上的一个分布,即
π(a∣s)=p[At=a∣St=s] 它的含义是:策略π在每个状态s指定一个动作概率。如果给出的策略π是确定性的,那么策略π在每个状态s指定一个确定的动作。
累积回报:
Gt=Rt+1+γRt+2+...=k=0∑∞γkRt+k+1 (1)状态-值函数:累积回报G1的期望
定义:当智能体采用策略pi时,累积回报服从一个分布,累积回报在状态s处的期望值定义为状态-值函数:
vπ(s)=Eπ[k=0∑∞γkRt+k+1∣St=s] 相应的,状态-行为值函数定义为:
qπ(s,a)=Eπ[k=0∑∞γkRt+k+1∣St=s,At=a] 状态值函数的贝尔曼方程
vπ(s)=Eπ[Rt+1+γvπ(St+1)∣St=s] 状态行为值函数的贝尔曼方程
qπ(s,a)=Eπ[Rt+1+γqπ(St+1,At+1)∣St=s,At=a] 状态值函数的计算方式
vπ(s)=a∈A∑π(a∣s)(Rsa+γs′∈S∑Pss′avπ(s′)) 状态行为值函数
qπ(s,a)=Rsa+γs′∈S∑Pss′aa′∈A∑π(a′∣s′)qπ(s′,a′) 最优状态值函数v∗(s)为在所有策略中值最大的值函数,即v∗(s)=maxπvπ(s)。
最优状态-行为值函数q∗(s,a)为在所有策略中最大的状态-行为值函数,即q∗(s,a)=maxπqπ(s,a)
因此可以得到最优状态值函数和最优状态-行为值函数的贝尔曼最优方程
v∗(s)=maxaRsa+γs′∈S∑Pss′av∗(s′) q∗(s,a)=Rsa+γs′∈S∑Pss′amaxa′q∗(s′,a′) 定义一个离散时间有限范围的折扣马尔科夫决策过程M=(S,A,P,r,ρ0,γ,T)其中S为状态集,A为动作集,P:S×A×S→R是转移概率, r:S×A→[−Rmax,Rmax]为立即回报函数,ρ0:S→R是初始状态分布,γ∈[0,1]是折扣因子,T为水平范围(其实是步数)。τ为一个轨道序列,即τ=(s0,a0,s1,a1,...),累积回报为R=∑t=0Tγtrt,强化学习的目标就是找到最优策略π,使得该策略下的累积回报期望最大,即maxπ∫R(τ)pπ(τ)dτ。
2.2 MDP中的概率学基础讲解
强化学习中常采用的随机策略。
(1)贪心策略
π∗(a∣s)={10a=argmaxa∈Aq∗(s,a)otherwise (2)ε-greedy策略
π∗(a∣s)={1−ε+∣A(s)∣ε∣A(s)∣εa=argmaxa∈Aq∗(s,a)otherwise (3)高斯策略
πθ=μ+ε,ε N(0,σ2) (4)玻尔兹曼分布
π(a∣s,θ)=∑bexp(Q(s,b,θ))exp(Q(s,a,θ))