最近
文章
代码仓
资源
问答
帖子
- 蒙特卡洛方法求解强化学习任务——基于试探性出发假设的蒙特卡洛控制
- 蒙特卡洛方法求解强化学习任务——基于非试探性出发假设的蒙特卡洛控制
- 蒙特卡洛方法求解强化学习任务——非试探性出发假设之同轨策略
- 蒙特卡洛方法求解强化学习任务——离轨策略与重要性采样介绍
- 蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛策略评估
- 蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛控制
- 时序差分方法求解强化学习任务——时序差分方法介绍
- 时序差分方法求解强化学习任务——基于同轨策略的时序差分控制(SARSA算法)
- 时序差分方法求解强化学习任务——基于离轨策略的时序差分控制(Q-Learning方法)
- 机器学习笔记之高斯分布——基于参数预测的有偏估计与无偏估计