推荐序

序一

强化学习目标是解决决策最优化问题。所谓决策最优化,是指面对特定状态(State,SS),采取什么行动方案(Action,AA),才能使收益最大化(Reward,RR).

马尔科夫决策过程(DPM)是最简单的强化学习的数学模型,有如下原因

  1. 状态sts_t的数量有限;

  2. 行动方案ata_t的数量有限;

  3. 特定状态sts_t的收益rtr_t是明确的;

  4. sts_t下采取行动ata_t,下一个状态st+1s_{t+1}不是确定的。

动态规划是解决DPM最常用的算法。

强化学习的目标是研究从DPM出发,放松各种限制。

例如sts_t可能是数量庞大或者无限的,或者是连续而非离散的,或者sts_t是只能部分被观察或者不能被观察。再次情况下,强化学习的目标不是寻找最优解,二是寻找次优解。

序三

闭环学习:采用动态的数据及标签,将数据产生和模型优化通过一定的交互方式结合在一起,将动态反馈信号引入学习过程。

序五

强化学习模拟的是人类的一种学习方式,在执行摸个动作或者决策后根据执行效果来获得奖励,通过不断与环境的交互进行学习,最终达到目标。

Last updated

Was this helpful?