推荐序
Last updated
Was this helpful?
Last updated
Was this helpful?
强化学习目标是解决决策最优化问题。所谓决策最优化,是指面对特定状态(State,),采取什么行动方案(Action,),才能使收益最大化(Reward,).
马尔科夫决策过程(DPM)是最简单的强化学习的数学模型,有如下原因
状态的数量有限;
行动方案的数量有限;
特定状态的收益是明确的;
下采取行动,下一个状态不是确定的。
动态规划是解决DPM最常用的算法。
强化学习的目标是研究从DPM出发,放松各种限制。
例如可能是数量庞大或者无限的,或者是连续而非离散的,或者是只能部分被观察或者不能被观察。再次情况下,强化学习的目标不是寻找最优解,二是寻找次优解。
闭环学习:采用动态的数据及标签,将数据产生和模型优化通过一定的交互方式结合在一起,将动态反馈信号引入学习过程。
强化学习模拟的是人类的一种学习方式,在执行摸个动作或者决策后根据执行效果来获得奖励,通过不断与环境的交互进行学习,最终达到目标。