当前位置:小鱼儿玄机1站开奘结果 > 次动作函数 >

第二章强化学习理论概述 基于高斯过程回归的强化学习算法研究 8

  第二章强化学习理论概述 基于高斯过程回归的强化学习算法研究 8函数 是一个有限MDP的动态性的两个重要方面。 马尔科夫决策过程可以根据状态转移函数f分为 确定性情况和随机性情况 36 确定性情况时间步t 在状态tx下选择动作tu的情况下 下一个状态1tx 可由状态转移函数1 tttfXUXxfxu

  第二章强化学习理论概述 基于高斯过程回归的强化学习算法研究 8函数 是一个有限MDP的动态性的两个重要方面。 马尔科夫决策过程可以根据状态转移函数f分为 确定性情况和随机性情况 36 确定性情况时间步t 在状态tx下选择动作tu的情况下 下一个状态1tx 可由状态转移函数1 tttfXUXxfxu 表示 立即奖赏1tr 可由奖赏函数 XUR tttrxu表示。 随机性情况确定性MDP仅仅是随机性MDP的一种特例。而在随机性MDP中 下一个状态为一个随机变量。时间步t 在状态tx下选择动作tu 下一个状态1tx 属于集合1tXX 的概率可表示为 11 ttttttpxXxufxuxdx 3强化学习中的探索与利用强化学习是一个系统自主学习技术 描述智能体Agent长时间与环境交互的学习问题。Agent需要不断的进行试错学习来获得最优策略。在学习过程中 为了找到最优策略 Agent需要尽可能选择全部动作 即探索 Exploration 而对值函数大的动作进行选择从而得到最大的期望回报 即利用 Exploitation 。探索和利用的平衡是强化学习中的重要问题 过多的探索对学习的速度影响较大 而一味的利用对找到最优策略会产生不利的影响。 探索方法可以分为直接探索与间接探索。直接探索通常是根据以往的经验进行分析 从而进行就有侧重范围的选择。而间接探索指对每个可能动作赋予一定的概率 从而实现对所有动作的探索。典型的间接探索方法是greedy 方法以及Boltzman方法。 greedy方法 该方法指在大多数动作选择之间是贪心的 但不是一直贪心 而是以一个很小的概率 来随机的、均匀的、独立于动作的估计值地选择一个动作。我们把这种几乎是贪心的方法称为greedy 方法。这种方法的一个优点是 随着游戏次数的增加 每基于高斯过程回归的强化学习算法研究 第二章 强化学习理论概述 9个动作都将被无限次的访问到 以保证对所有的 在情节数k 确保所有的tQxu收敛到 Qxu。这表示选择最优动作的概率会收敛到1 也就是说这个概率几乎是确定的。这是一种渐进的方法 但还是缺少该方法的实践有效性。 Boltzman方法greedy 方法的缺点就是在探索的时候它是在所有的动作中均等地进行选择。这意味着 当它下一步选择动作的时候 可能选择最差的动作。该方法的动作选择概率是根据它们的估计值来进行安排和分配的权重 即第t个情节在状态x选择动作u的概率 1Pr ttQxuttnQxbbeuuxxe 其中是一个正参数 称为temperature。高的temperature可以使得动作趋于完全 接近 等概率。低的temperature则使不同动作值的动作选择概率跟它们的估计值有很大的不同。当0 4强化学习经典算法现在 解决强化学习问题的算法主要有两类 一类是值函数评估算法 该类算法在强化学习领域中得到了十分广泛的应用 发展也比较迅速 另一类是策略搜索方法 如遗传算法、模拟退火以及其他一些进化方法 37 。而本小节主要介绍第一类的值函数估计算法 该类算法是Agent通过和外部环境进行长期交互 通过不断迭代来学习、更新值函数的算法。 TD算法时间差分 temporal difference TD 学习算法在强化学习领域中具有核心作用以及创新思维。时间差分学习算法很好地统一了蒙特卡罗思想和动态规划思想。 TD 算法将获得的立即奖赏向前一步进行回馈。其更新公式如式25所示 11 tttttVxVxrVxVx 其中为学习率 为折扣因子。在某个策略h下 当学习率 随着迭代的进第二章 强化学习理论概述 基于高斯过程回归的强化学习算法研究 10行而逐渐地减小 TD 算法能收敛到最优值函数38 在TD中TD 即一步更新而蒙特卡罗方法是从开始状态到情节结束的整个过程中获得回报的情况下对每个状态进行更新。然而当 为非零且还未达到情节结束时 TD算法就是介于一步更新和蒙特卡罗方法之间。更严格地讲 我们考虑把运用在状态tx上的更新作为状态回报序列112 ttttTTxrxrrx 的一个结果。而在蒙特卡罗更新中 tVx的估计是根据全部回报进行更新的 21123TtTttttRrrrr 其中T是一个情节中到达终止状态的步数。我们把这个量称为更新目标。在蒙特卡罗更新中 这个目标是全部的回报 而在一步更新中 该目标就是直接回报加上下一状态值的折扣估计 11 同理可以得出2 step和n step的更新目标如式2 9所示2122 2123ntttttnRnrrrVx 该变量有时也称为“修正的截断n步回报”因为它在n步之后有一个截断回报 并且通过在截断上加上第n个后继状态的估计而进行了修正。TD 家族的更新图如图2 2所示 TD谱系图 基于高斯过程回归的强化学习算法研究 第二章 强化学习理论概述 11 TD方法是增量实现的 利用TD 得到的估计通常是马尔科夫过程的最大似然模型得到的精确值。相较于动态规划DP 方法的一个突出优点就是TD方法不需要环境模型。而相较于蒙特卡罗方法 TD方法的重要优点是 TD方法自然而然地利用在线、全增量的方式实现。 SARSA算法Niranjan与Rummery两人在1994年提出了SARSA算法 随后 policy的方法 即在行为策略h 对所有状态x和动作u估计 hQxu。能够使用交替的状态 动作对构成的序列来表示 tx1 tx2 txttax 11 ttax 状态动作对序列 上述序列即是有奖赏过程的马尔科夫链过程。其动作值函数的更新如下 111 tttttttttQxuQxurQxuQxu 10这个更新规则利用图2 构成了从一个状态动作对转移到另一个状态 动作对的序列。而这五个元素构成了SARSA算法 其行为策略与值函数的更新一致 所以SARSA算法在对动作值的更新上是严格遵循TD学习模式的。本质上来讲 SARSA算法是一种在线的、在策略的策略迭代TD算法。算法2 1描述了SARSA算法的迭代过程。 算法2 SARSA算法的执行过程Step 对所有状态动作对 xu 初始化 Qxu为任意值 Step 初始化开始状态xStep 根据行为策略h在状态x下选择动作u Step 对一个情节下的每个时间步第二章 强化学习理论概述 基于高斯过程回归的强化学习算法研究 12Step 采取动作u获取立即奖赏r以及下一个状态 根据行为策略h在状态 x下选择动作 llllQxuQxurQxuQxuStep xxuuStep 10 如果x是终止状态 则本情节学习结束 否则转到Step Step11 终止条件 1llQQ Step 12 输出 lQQ learning算法 Q学习算法最初是在1989年由Watkins提出的 39 。Q学习算法是学习马尔科夫过程中的最优控制问题的一种简单方式。它通过增量的方式减少了计算量 使用于对任意状态值或者状态动作对的值进行不断迭代的情况。 Q学习算法是一种离策略 off policy 的时间差分控制算法。动作值函数的评估值Q直接逼近最优动作值函数 而不取决于行为策略。其值函数的更新来自于动作结点这些动作结点使得其下一个状态的所有可能的动作最大化。 其更新如图2 4所示 Q学习的更新图与其所对应的即为最简单的一步Q学习的形式 111 max tttttttttQxuQxurQxuQxu 11我们假设所有的状态 动作对能够不断地被更新 并且步长参数 在满足i 且2i 的条件下 Q能够以概率1收敛到 Q。之后由Peng在Q学习算法中引入资格迹 提出 算法进一步提高了算法收敛速度 40 。算法2 2描述了带有资格迹的在线TD算法。 基于高斯过程回归的强化学习算法研究 第二章 强化学习理论概述 13算法2 基于资格迹的TD算法的执行过程Step 对所有状态动作对 xu 初始化 Qxu、资格迹 exu为任意值 Step 初始化开始状态xStep 根据行为策略h在状态x下选择动作u Step 对一个情节下的每个时间步Step 采取动作u获取立即奖赏r以及下一个状态 根据行为策略h在状态 x下选择动作 rQxuQxuStep 1exuexuStep 10 对所有状态 动作对 xu Step 11 QxuQxuexu Step 12 rQxuQxu Step 13 xxuu Step 14 如果x是终止状态 则本情节学习结束 否则转到Step Step15 终止条件 1llQQ Step 16 输出 lQQ ActorCritic算法 行动者 评论家方法 C算法是一种不依赖于值函数的算法 它拥有一个独立结构来明确地表示策略。行动者即为策略结构 用来选择动作。而评论家则是用来评估值函数 评价动作的好坏。行动者 评论家算法为在线的TD算法 行动者采取动作 而评论家对该动作进行评价 从而驱动行动者与评论家之间的学习 如图2 5所示。 行动者 评论家算法是强化比较方法 即TD学习和完全强化学习问题思想的延伸。行动者选择动作 评论家评估该动作与期望相比的好坏 评估的TD误差如公式2 12 11 ttttrVxVx 12其中 V值函数为评论家所使用的评价准则。此时 若误差为正 则所选动作的第二章 强化学习理论概述 基于高斯过程回归的强化学习算法研究 14被选择概率应当增加 则所选动作的概率应当被减小。Gibbs软最大化方法是常用的动作选择方法Pr pxuttpxuehxuuuxxe 13其中 p可以看成行动者在选择动作时可以更改的策略参数的值 即可选动作的优先级。而该优先级可以通过TD误差来调整 tttttpxupxu 14其中 为步长参数。 行动者评论家结构图 在行动者 评论家结构中 可以学习到值函数以及独立的策略。正因如此 行动者 评论家算法具有两个突出的优点 能够学习一个显式的随机策略。在行动者评论家结构中 将行动者剥离使得其在某些方面更有优势。 5强化学习中的值函数逼近强化学习算法在值迭代过程中需要对每一个状态的值或状态动作对的值进行存储保存。然而 当面对一个大状态空间或者连续状态空间的“维数灾”问题 XU 的规模极大 对值函数进行表格式的存储保存是不可能的 必须利用函数逼近方法对值函数进行泛化。 基于高斯过程回归的强化学习算法研究 第二章 强化学习理论概述 15强化学习中函数逼近架构包含两类逼近器 41 带参函数逼近器 parametric approximators 和非参函数逼近器 non parametric approximators 1带参函数逼近器带参函数逼近是从参数空间映射到值函数空间的逼近器。函数逼近器的形式和参数的数量通常是事前确定 而且不依赖于样本数据。带参函数逼近器通过调整参数来逼近目标函数。带参函数逼近器可以表示为如下映射 nFRQ 15其中 nR为参数空间 Q为值函数空间。具体函数模型可以表示为如下形式 QxuFxu 16一般情况下 逼近器模型F可以分为非线性和线性两种情况。前馈神经网络是非线性带参函数逼近的一个典型例子 42 。然而 由于理论上能较容易分析线性逼近器的性能 因此线性带参逼近器被广泛采用。线性带参逼近器可以表示为 TllFxuxuxu 17其中1 Tnxuxuxu 是基函数basis functions BFs 向量 也称为特征向量 θ为n维参数向量。 2非参函数逼近器非参函数逼近器不同于带参函数逼近器 它不需要事先确定函数形式和参数数量 而是根据样本数据本身来确定这两者。非参函数逼近器具有较高的灵活性。然而 由于非参函数逼近器的形式依赖样本数据 所以非参函数逼近器很难保证算法的收敛性。随着样本数据的提高 计算量也会急剧增加。 基于核函数 kernel function 的逼近器是非参函数逼近器的重要方法 核函数是两个状态动作对相关联的函数 kXUXUR xuxuKxuxu 18这种情况下 核函数可以看作为两个状态动作对在特征向量中的内积。利用这个第二章 强化学习理论概述 基于高斯过程回归的强化学习算法研究 16性质 我们可以仅计算核函数就可以得到一类强大的逼近器并且不局限于特征空间。假设存在状态 动作对的样本的集合 ssllssxuln则基于核函数的逼近器如式2 19所示 19其中 sn是参数。从形式看 该公式与带参的线性函数逼近器是一样的。然而 其实两者之间具有本质的区别。对于带参的函数逼近器 基函数的数量及形式事先就是确定的 因此 我们最后得到的函数F也是确定的。相反 对于非参的函数逼近器 核函数的数量和形式、参数的数量以及最后函数逼近器的形式都是事前未知的。 带参与非参逼近器的区别由于带参的函数逼近器的参数数目和函数形式是事先设置的 函数逼近器在参数调整方面必须具备足够的灵活度 从而才能准确地逼近目标函数。通常 非线性函数逼近器具有很好的灵活性 可获得较好的泛化性能 如人工神经网络。然而 在强化学习算法的收敛性保证方面 线性的逼近器要优于非线性的。因此 我们通常使用线性函数逼近器 目的是为了在算法收敛性方面有所保证。一般情况下 合适的基函数 BFs 需要事先设置。然而 如果我们事先无法获得足够的先验知识 我们就需要构造大规模数量的基函数 目的是为了覆盖整个空间 此时 该问题转化为高维度问题。为了解决这个问题 目前 已经提出很多方法能够从环境数据中自动地获得数量少、质量高的基函数。 非参函数逼近器相比较与带参函数逼近器 具有更大的灵活性。样本数据的规模决定了非参函数逼近器的复杂度 若样本数据很难获得或获得的代价比较大 这种方法显示出巨大的优势 但是当样本数据的量比较大时 该逼近器表现出很大缺点 在这种情况下 计算量和内存的需求将随着参数样本规模的增加而增加。例如 19中的基于核函数的函数逼近器所需要的参数的个数等于样本数据的个数。这个问题在在线的强化学习算法中表现得尤其明显因为在整个在线算法的执行过程中一直在生基于高斯过程回归的强化学习算法研究 第二章 强化学习理论概述 17成样本。 当然也存在缓解这种问题的方法。例如在基于核的方法中 基函数的分布以及样本数据的分布对函数逼近的精度都存在重要的影响 可以不考虑其他。另外 对样本数据重要性的度量方法对于函数逼近器的精度也有影响 42 43 6强化学习应用虽然强化学习还处在理论发展阶段 在现实中的应用也比较少。但本节介绍的几个强化学习应用的案例中 表明了强化学习理论在实际的应用中是具有潜在的经济意义的。强化学习的应用还远远没有步入正轨 我们应当看待它如看待科学一般 并朝着将强化学习理论应用到实际生活 并将实际应用变得更方便、更直接的目标发展。 最成功的应用是Gerry Tesauro的西洋双陆棋TD Gammon游戏 他将强化学习中的TD算法与多层神经网络通过反向传播TD误差的方式来训练非线性函数逼近相结合 并且训练出来的实力接近世界最优秀的人类棋手。Crites和Barto将强化学习技术应用于具有四部电梯与十层楼的电梯调度系统中 并在晚上下班高峰期间 表现出高效的调度性能。同时 强化学习理论已被应用于机器人 移动机器人导航中。Ram和Santamaria提出了基于事例推理的相关控制算法用于导航。 7本章小结本章介绍了强化学习理论 相关算法以及大状态空间下的函数逼近方法。为以下章节奠定了基础。首先 介绍了马尔科夫理论 其次 介绍了强化学习框架以及以TD误差为基础的相关算法 最后 介绍遭遇“维数灾”情况下的两类函数逼近方法、优缺点及其区别。

  基于高斯过程回归的强化学习算法研究,高斯过程回归,高斯过程回归模型,高斯过程,平稳高斯过程,高斯过程模型,回归算法,逻辑回归算法,二元线性回归算法,算法研究

http://syn992.com/cidongzuohanshu/367.html
点击次数:??更新时间2019-07-27??【打印此页】??【关闭
  • Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有  
  • 点击这里给我发消息
在线交流 
客服咨询
【我们的专业】
【效果的保证】
【百度百科】
【因为有我】
【所以精彩】