MDP有以下内涵：

• 必须满足 0 \leq \gamma \leq 1
• 如果 \gamma=0 ，智能体只关心最即时的奖励。
• 如果 \gamma=1，回报没有折扣。
• \gamma 的值越大，智能体越关心遥远的未来； \gamma 的值越小，折扣程度越大，在最极端的情况下，智能体只关心最即时的奖励。
• 一般情况下， \gamma 应该设置为更接近1。
MDP模型由以下属性组成：
• 一组（有限的）状态 \mathcal{S} （对于阶段性任务，则是 \mathcal{S}^+ ）
• 一组（有限的）动作 \mathcal{A} ， \mathcal{A}(s) 是在状态 s \in \mathcal{S} 的潜在行动集合
• 一组奖励 R 或者奖励函数 R_a(s,s')
• 环境的一步动态特性（状态转移概率函数） p(s', r | s, a) = P(S{t+1}=s', R{t+1}=r | S_t=s, A_t=a)
• 折扣率 \gamma \in [0,1]

MDP的解题思路

{\pi} 及 q{\pi} ，从而可以不断进行策略改进找到更好的策略 \pi' ，最终找到最优策略 \pi* ？

MC法：

Monte Carlo methods (or Monte Carlo experiments) are a broad class of computational algorithms that rely on repeated random sampling to obtain numerical results.
—— Monte Carlo method, from Wikipedia

V(s) = E[G_t | St = s] ，求出所有状态 s \in \mathcal{S} 下收益的期望值，便可以得到一个近似的状态值函数 V\approx v{\pi} ；

TD学习：

Monte Carlo methods are ways of solving the reinforcement learning problem based on averaging sample returns. To ensure that well-defined returns are available, here we define Monte Carlo methods only for episodic tasks. That is, we assume experience is divided into episodes, and that all episodes eventually terminate no matter what actions are selected. Only on the completion of an episode are value estimates and policies changed. Monte Carlo methods can thus be incremental in an episode-by-episode sense, but not in a step-by-step (online) sense. The term “Monte Carlo”is often used more broadly for any estimation method whose operation involves a significant random component. Here we use it specifically for methods based on averaging complete returns (as opposed to methods that learn from partial returns, considered in the next chapter).
--[2]《Reinforcement Learning: An Introduction》, Chapter 5 Monte Carlo Methods

TD学习的三种算法的特点总结如下（具体可参阅该教科书（尤其是第 6.4-6.6 部分）的第 6 章节）：

Sarsa 和期望 Sarsa 都是同步策略（on-policy） TD 控制算法。在这种情况下，我们会根据要评估和改进的相同（ϵ 贪婪策略）策略选择动作。
Sarsamax 是异步策略（off-policy）方法，我们会评估和改进（ϵ 贪婪）策略，并根据另一个策略选择动作。