强化学习预备知识-马尔可夫决策过程逻辑思路介绍

强化学习预备知识 - 马尔可夫决策过程逻辑思路介绍

目录
- 随机事件(Random Variables Events)
- 随机变量(Random Variable)
- 随机过程(Stochastic Process)
- - 马尔可夫过程/马尔可夫链(Markov Chain)
  - 马尔可夫奖励过程(Markov Reward Process,MRP)
  - 马尔科夫决策过程(Markov Decision Process, MDP)

本章内容单从逻辑角度从随机事件到马尔可夫决策过程有一个清晰的逻辑认识后续章节会从数学和算法角度对马尔可夫奖励过程(MRP)和马尔科夫决策过程(MDP)进行介绍

目录随机事件(Random Variables Events)

随机事件(Random Variables Events) → \to → 指在随机试验中，可能出现也可能不出现，在大量重复试验中具有某种规律性的事件。

示例：试验1：领导下午3点从公司出去了，他去做的事情； → \to → "领导见客户"是试验1中的一个随机事件(通过重复试验 → \to → 领导下午3点出去中可能发生的情况)，我们记作： X = { " 领导见客户 " } X=\{"领导见客户"\} X={"领导见客户"}

试验2：下班之后晚上吃的东西； → \to → ”晚上吃煮鸡蛋“是试验2中的一个随机事件(通过重复试验 → \to → 晚上吃东西中可能发生的情况)，我们记作： Y = { " 晚上吃煮鸡蛋 " } Y=\{"晚上吃煮鸡蛋"\} Y={"晚上吃煮鸡蛋"}

观察两个随机事件 X , Y X,Y X,Y： X , Y X,Y X,Y从常理逻辑角度解释：领导见客户和晚上吃煮鸡蛋这两个随机事件不论是否发生，两者之间都不存在明显的关联关系；称这两个事件发生对应的概率分布之间是相互独立的。

随机变量(Random Variable)

随机变量(random variable)指随机事件数量化的一种表达。它主要包含以下几种常用信息：

随机变量的基本类型：
- 离散型(discrete)随机变量：在有限区间内随机变量取值为有限个；
- 连续型(continuous)随机变量：在有限区间内随机变量取值有无限个，即无法将变量取值结果一一列举出来；
随机变量的概率表示
- 基于离散型随机变量的概率质量函数(Probability Mass Function,PMF)
- 基于连续性随机变量的概率密度函数(Probability Distribution Function,PDF)
随机变量的维度
- 一维随机变量 -> 使用1个特征(数值)即可将随机事件的信息完整表示出来。例如：身高(连续型随机变量)，性别(男/女，离散型随机变量)
- 多维随机变量 -> 1个特征不足以完整表示随机事件的信息，需要使用多个特征对随机事件的信息进行表示。例如：房价信息 -> 需要参考房子的地段(离散型随机变量)，楼层(离散型随机变量)，格局(如3室1厅，2室2厅,…离散型随机变量)，面积(连续型随机变量)，房子朝向(离散型随机变量)等等需要通过综合考量才能得到房子最终的价值信息。
各维度间关联关系
- 在多维随机变量的基础上，各维度之间是相互独立/存在关联关系仍然以房价信息示例：房子的地段信息和房子朝向信息就是相互独立关系 → \to → 其中一个信息变化，另一个信息不产生影响；相反，房子的格局和面积之间存在明显的关联关系，面积更大的房子，房子格局就可能更大。

随机过程(Stochastic Process)

已知一个序列如下所示： S = { S t , S t + 1 , S t + 2 . . . } \mathbb{S}=\{S_t,S_{t+1},S_{t+2}...\} S={St,St+1,St+2...} 其中 S t S_t St表示某支股票 t t t时刻的价格， S t + 1 S_{t+1} St+1表示该股票 t + 1 t+1 t+1时刻的价格,…以此类推。实际上这样一组随机变量内部的关系是非常复杂的，从逻辑的角度判断，他们之间不是相互独立的，各随机变量可能存在某种关联关系。

随机过程可以理解成按照某段连续时间/次序产生的一组随机变量，并将一组随机变量看成一个整体(一个研究对象)讨论他的分布/趋势。

进一步归纳：

随机过程研究的对象不是单个随机变量，而是一个随机变量集合；
随机变量集合内部各随机变量存在明显的关联关系；
这种关联关系具有时序性；

以时间为媒介产生的一组随机变量可以进行如下表示： { S t , S t + 1 , S t + 2 , . . . } \{S_t,S_{t+1},S_{t+2},...\} {St,St+1,St+2,...} 记作： { S k } ∣ k = 1 ∞ \{S_k\}\vert_{k=1}^{\infty} {Sk}∣k=1∞

马尔可夫过程/马尔可夫链(Markov Chain)

马尔可夫链(Markov Chain, MC)是一种特殊的随机过程 → \to → 一种具备马尔可夫性质(Markov property)的随机过程。

马尔可夫性质即齐次马尔可夫假设。以一阶齐次马尔可夫假设示例：文字语言表达：给定当前时刻 t t t的状态 S t S_t St的情况下， t + 1 t+1 t+1时刻(将来时刻)状态 S t + 1 S_{t+1} St+1的后验概率只和当前状态 S t S_t St相关，和过去时刻 ( S t − 1 , S t − 2 , . . . ) (S_{t-1},S_{t-2},...) (St−1,St−2,...)无关。我们称具备这种性质的随机过程为1阶马尔可夫链。同理，也存在相应的2阶马尔可夫链,…, N N N阶马尔可夫链。 1阶马尔可夫链的数学语言表达： P ( S t + 1 ∣ S t , S t − 1 , S t − 2 , . . . ) = P ( S t + 1 ∣ S t ) P(S_{t+1}\vert S_t,S_{t-1},S_{t-2},...)=P(S_{t+1} \vert S_t) P(St+1∣St,St−1,St−2,...)=P(St+1∣St) 从上述公式中，可以观察到构建齐次马尔科夫假设的目的就是通过减少条件概率中的参数来简化运算。

马尔可夫奖励过程(Markov Reward Process,MRP)

其本质是在马尔可夫链(Markov Chain)的基础上，针对每一个状态返回一个奖励(Reward)。该奖励本质上可以看做在某时刻从一个状态 → \to → 另一个状态的广义上的收益。为什么是广义上的收益 → \to → 因为该收益有可能是正向收益，也有可能是负收益。

仍然以股票作为示例；假设我购入了一支股票；

在我购入这支股票后的某时刻 t → t\to t→时刻 t + 1 t+1 t+1 的变化过程中，股票价格的状态可能发生变化；
而上述状态的变化会给我返回一个广义上的收益 → \to → (盈利/损失/不赔不赚) 我们只是将示例问题简单化 -> 将收益(Reward)看成离散型随机变量；但实际上可能更加复杂。

马尔科夫决策过程(Markov Decision Process, MDP)

马尔可夫决策过程是在奖励过程(Markov Reward Process)的基础上增加了具体行为(Action)，通过对行为选择进行干预 → \to → 导致奖励(Reward)的相应变化。

针对奖励过程中的股票示例进行补充：在购入一支股票之后：

马尔可夫奖励过程只是观察到各时刻股票产生的广义收益信息，而没有机会参与进去；
马尔可夫决策过程不仅能够观察到股票产生的收益信息，并且根据收益信息(Reward)进行分析，并对这支股票的后续决策进行更新(修正),而修正后的决策直接影响行为(Action)的选择。

在该示例中，为简化思路，设置3种行为(Action)：

买入；
卖出；
不买不卖，暂且观望；

针对马尔可夫决策过程在示例中的使用，构建如下场景：在某支股票被买入后，股票在 t t t时刻价格上涨( t t t时刻的reward R t R_t Rt增大)：针对该场景，使用马尔可夫决策过程(MDP)模拟人的心路历程：

从常规角度考虑，目的是为了多赚钱(广义上的正向收益越大越好)，因此在 t t t时刻状态下买入的概率会更高 → \to → 根据 t t t时刻的状态信息构建的决策如下； { " 买入 " ： 0.5 , " 卖出 " ： 0.2 , ”暂且观望 " ： 0.3 } \{"买入"：0.5,"卖出"：0.2,”暂且观望"：0.3\} {"买入"：0.5,"卖出"：0.2,”暂且观望"：0.3}
使用该决策按照对应的概率随机选择一个行为，并执行该行为 → \to →行为的执行必然导致状态的更新( S t → S t + 1 S_t \to S_{t+1} St→St+1),并伴随状态的转移得到新的奖励 R t + 1 R_{t+1} Rt+1，根据新的状态信息重新优化决策，并根据优化后的决策重新选择行为，并迭代下去。
最终目的是得到一个相对最优的决策(根据不同状态产生的情况都有相对最优的行为进行选择) → \to → 获取更多的广义上的正向收益。

下一章通过数学语言详细介绍马尔可夫决策过程(MDP)的参数表示和执行过程。相关参考：【强化学习】马尔科夫决策过程【白板推导系列】

强化学习预备知识-马尔可夫决策过程逻辑思路介绍

[ 申请 ]友情链接：