date:
updated:

强化学习入门笔记(一)


2020-10-20 20:30:56 星期二
学习内容:
知乎专栏:强化学习知识大讲堂
莫烦python强化学习教程 Q-Learning、Sarsa、Sarsa(λ)
这篇笔记其实条理不够清晰,关于MDP的一些理解可以看后面的report(1)


知乎专栏:强化学习知识大讲堂

第一讲MDP
参考链接:
RL知识大讲堂:https://zhuanlan.zhihu.com/p/25498081
叶强David Silver强化学习课笔记:https://zhuanlan.zhihu.com/p/28084942

强化学习的特点

强化学习的学习过程是个动态的,不断交互的过程,所需要的数据也是通过与环境不断地交互产生的。所以,与监督学习和非监督学习相比,强化学习涉及到的对象更多,比如动作,环境,状态转移概率和回报函数等。强化学习更像是人学习的过程.

人工智能的目的是通过感知进行智能决策,而深度学习是解决的感知问题,强化学习解决的是决策的问题。

MDP

MDP:马尔科夫决策过程

马尔科夫性

定义:系统的下一个状态仅与当前状态有关,而与以前的状态无关。
当前的状态如果是已知,则当前状态已经蕴含了以前的状态。

马尔科夫决策过程

马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。

衰减系数 Discount Factor:
γ∈ [0, 1],(读gamma)它的引入有很多理由,其中有数学表达的方便,避免陷入无限循环(马尔科夫链中可能有环),远期利益具有一定的不确定性,符合人类对于眼前利益的追求,符合金融学上获得的利益能够产生新的利益因而更有价值等等。
衰减系数体现了未来的奖励在当前时刻的价值比例,γ接近0,则表明趋向于“近视”性评估,即追求当前奖励,γ接近1则表明偏重考虑长远的利益(或者说未来奖励与当前奖励同样重要)。

收获 Return
定义:收获 为在一个马尔科夫奖励链上从t时刻开始往后所有的奖励的有衰减的总和。也有翻译成“收益”或”回报”。 注意与reward区分
收获是针对一个马尔科夫链中的某一个状态来说的

Bellman optimality function
首先有 bellman expectation
某个状态的值函数vπ(s)等于该状态下所有状态行为值函数qπ(s,a)的加权和
Vπ(s)=∑a∈A π(a|s)qπ(s,a)
然后,如果MDP已最优,有bellman optimality equation,此时策略π是最优.
Vπ(s)=max a∈A qπ(s,a)
用到bellman opitmality function的有policy iteration和value iteration,这个在笔记(二)中讨论。

针对 v* ,一个状态的最优价值等于从该状态出发采取的所有行为产生的行为价值中最大的那个行为价值:
针对 q* ,在某个状态s下,采取某个行为的最优价值由2部分组成,一部分是离开状态 s 的即刻奖励,另一部分则是所有能到达的状态 s’ 的最优状态价值按出现概率求和:
Bellman最优方程是非线性的,没有固定的解决方案,通过一些迭代方法来解决:价值迭代、策略迭代、Q学习、Sarsa等。


← Prev 强化学习入门笔记(二) | hexo博客的一些其他技巧 Next →