当前位置:小鱼儿玄机1站开奘结果 > 次动作函数 >

10强化学习方法及应用技术研究 认为是与TD算法并列的两种强化学

  10强化学习方法及应用技术研究 认为是与TD算法并列的两种强化学习算法 但Sutton认为Q学习实质上是TD算法中的一种 并称其为离策略TD算法 off policy TD 。不同于TD算法只对状态进行值估计 Q学习是对状态动作对的值函数进行估计以求得最优策略。 Q学习的过程如下 在某个状态s下 A

  10强化学习方法及应用技术研究 认为是与TD算法并列的两种强化学习算法 但Sutton认为Q学习实质上是TD算法中的一种 并称其为离策略TD算法 off policy TD 。不同于TD算法只对状态进行值估计 Q学习是对状态动作对的值函数进行估计以求得最优策略。 Q学习的过程如下 在某个状态s下 Agent选择一个动作a执行 然后根据Agent所收到的关于该动作的奖赏值和当前的状态动作值的估计来对动作的结果进行评估。对所有状态下的所有行为进行这样的重复 Agent通过对长期的折扣回报的判断 就可以学习总体上的最优行为。 Q学习中最简单的一种形式为单步Q学习 其Q值函数迭代公式为 11 max ttttttttaQsaQsarQsaQsa 10其中 参数 为学习率 或学习步长 为折扣率 ttQsa是状态动作对的值函数 表示Agent在环境状态ts下执行动作ta后再按策略 映射动作所得到的报酬总值。 一个典型的单步Q学习算法步骤如表2 2所示。 Q学习算法Initialize arbitrarilyRepeat eachepisode Initialize eachstep episodeChoose usingpolicy derived from greedyTake action maxaQsaQsarQsaQsass Until terminal文献 11 证明了在满足一定条件下 对于 sa 第k次更新的Q值函数 Qsa将以概率1收敛到最优Q值函数 Qsak Q学习算法的美妙之处在于其评估函数的定义具有如下特点12 当前状态动作对的Q值概括了所有需要的信息 无需中间的代价评估步骤和环境模型的知识。由于Q值在每一次迭代循环中都需要考虑Agent的每个动作 从而Q学习本质上不需要特有的探索策略 当满足一定条件时 只需要采用简单的贪婪策略即可保证算法的收敛性。因此 Q学习算法是最有效的模型无关的强化学习算法之一。 Q学习也可以根据TD 算法的方式扩充到Q 算法 给合TD算法中的资格迹 可以进一步提高算法的收敛速度。 第二章 强化学习简介 11 Sarsa学习算法Rummery和Niranjan于1994年提出了Sarsa算法 它是一种在策略 policyQ学习算法。Sarsa本质上是一种在线Q学习 与Q学习算法的差别在于 Q学习采用的是值函数最大值进行迭代 Q值的更新依赖于各种假设的动作 是一种离线算法 而Sarsa学习算法则采用实际的Q值进行迭代 它严格地执行某个策略所获得的经验来更新值函数 13 14 Sarsa学习算法值函数迭代公式为111 tttttttttQsaQsarQsaQsa 11Sarasa 学习算法步骤如表23所示。 学习算法Initialize evaluatedRepeat eachepisode Initialize eachstep episodeChoose usingpolicy πderived from greedyTake action nextaction a′from QsaQsarQsaQsassaaUntil terminalRummery将TD 与Sarsa 学习结合得到一种增量式在线策略学习算法Sarsa可以充分利用经验数据 提高学习的效率。 强化学习常用探索策略强化学习着重研究在P函数和R函数未知的情况下 系统如何学习最优行为策略。所以在与环境的交互过程中 Agent一方面要考虑选择值函数最大的动作 以获得最大的奖赏 即利用 Exploitation 另一方面又要尽可能的选择不同的动作 以找到最优的策略 即探索 Exploration 。目前 很多专家学者设计了多种探索策略 常用的有Greedy 探索策略和Boltzman探索策略。 Greedy探索策略 Greedy 探索策略是Greedy策略的一种改进 在进行动作选择时引用概率分布的形式。在当前环境状态s下 Agent以概率 进行随机选取 即为随机探索过程 而以概率1 的概率选取值函数最大化的动作 即为利用过程。因此当前状态下最优动作被选中的概率即为1 A为所有可用动作集合数。在强12强化学习方法及应用技术研究 化学习初始阶段 Agent只有很少的外部环境信息 因此需要更多地执行随机探索过程 随着学习的不断深入 Agent对外部环境信息感知在一步步强化 此时就需要更多的利用过程 以保证学习的收敛性。 Boltzmanm探索策略在Agent与外部环境动态交互过程中 可以利用值函数来动态地调整动作选择时探索与利用之间的平衡。结合Q值Boltzmanm探索概率分布如式 12所示。 kkQsaTttQsaTaAepaasse 12其中 T为“温度”参数 用于控制探索策略中随机探索的程度 它将随着学习过程的深入而衰减 从而实现在学习的初期Agent将采用较大的概率进行随机探索过程 而在学习的后期采用较大的概率进行利用过程以使学习算法收敛到最优。 4多Agent强化学习理论与相关算法多Agent强化学习是在单Agent强化学习的基础上发展起来的 但目前大多数多Agent强化学习方法只是简单地将单Agent的强化学习方法移植到多Agent领域中 41 。单Agent强化学习一般是在马尔可夫决策过程框架的基础之上进行的 学习中Agent认为环境是固定的。 多Agent强化学习在本质上是一个非固定的动态过程 继续使用马尔可夫决策过程框架已不再适合。多Agent强化学习过程中Agent之间会有信息的交互与通信 并且每个Agent的学习和动作都会导致整个系统的变化。因此 Agent在强化学习过程中 行为的确定不仅仅只与当前的环境状态有关 同时也受到其它Agent的影响。因此 针对多Agent强化学习的这些特性 一般从博弈论 42 的角度来研究多Agent强化学习。 马尔可夫博弈Markov Games 博弈是一些个人、团队或其他组织 面对一定的环境条件 在一定的规则下 同时或先后、一次或多次 从各自允许选择的行为或策略中选择并加以实施 并从中各自取得相应结果的过程 15 对有n个博弈方参与的博弈问题G每个博弈方的全部可选策略的集合称为博弈空间 分别用12 表示ii 表示博弈方i的一个策略。博弈方i的得益用iu表示 则有n个博弈方的博弈G记为1212 nnGuuu 纳什均衡Nash Equilibrium 是博弈论中非常重要的一个概念 它是一种策略组 第二章 强化学习简介 13 这种策略组合由所有参与人的最优策略组成。即在给定的策略情况下没有人有足够理由打破这种均衡。 定义2 纳什均衡在博弈1212 nnGuuu 如果在由各个博弈方的策略组成的某个策略组合12 都是对其余博弈方策略的组合1211 iin 的最佳对策 也即是说对于任意 ii 12111211 iiiiniiiinuu 都成立 1211iiin 是博弈G的一个Nash均衡。 马尔可夫博弈又称随机博弈 是将博弈论应用到类MDP中 是MDP的一般化。马尔可夫博弈的概念与前面介绍的马尔可夫决策过程的概念的相同之处在于其决策过程是满足马尔可夫性的 差别在于其中包含多个局中人 每个局中人都是有各自独立的奖赏函数 但其下一状态和奖赏是依赖于联合行为的。因此马尔可夫博弈可以看成是马尔可夫决策问题的扩展 16 马尔可夫博弈可用五元组SATR 表示 18 其中 是参与博弈的Agent集合 nn个Agent的行为集合12 nAAA iA是第i个Agent的可用行为集合 状态转移函数12 nTSAAAPDS PDS说明了当前状态下采取的联合行为迁移到下一个状态的概率。同时每个Agent还有一个相关的回报函数12 inRSAAA 相关算法简介在多Agent强化学习方面 研究者提出了一些算法 主要有Minimax NashQ和Friend learningFFQ Littman于1994年首先提出了MinimaxQ算法 19 该算法考虑的是只有两个局中人的零和对策 所以此算法中只需使用一个奖赏函数 对抗双方分别试图最大化和最小化该函数。 maxmin aAPDAaAVsQsaa 为Agent1所采取的行为策略 1a 2a分别为Agent Agent2的动作。Littman已证明了该算法的收敛性 20 。但是 该算法只能应用于二人零和对策 无法解决实际问题中的一般和对策问题。 针对MinimaxQ的局限性 Hu等于1998年将多Agent学习扩展到非合作一般和随机博弈中 提出了Nash Q算法 21 并用Nash平衡解定义值函数。 Nash Q学习过程中 Agent相互观察获取彼此所采取的动作以及所得奖赏等14 强化学习方法及应用技术研究 信息 并在学习和维护自身Q函数iQ的同时对其他Agent的Q函数 jQjiin进行建模。同一状态下所有Agent的Q值形成一个对策12 nQsQsQs。设其Nash平衡解为12 nsss 则相应值函数定义为Agent i在状态s中选定Nash均衡下的支付 即公式 12iiniVsNashQssssQs 14该算法的一个问题是 当学习中存在多个平衡解时 它不能保证收敛 尽管后来Hu等在条件限制上做了很多工作 但仍受到部分研究者的质疑。 LearningFFQ 由于Nash Q算法的条件限制非常严格 并需要维护其他Agent的值函数 Littman基于该算法提出了FFQ算法 21 它仍采用Nash Q的学习规则 但对其作了进一步的定义。 在两人对策中 当对方是Friend时 将二者之间看作是合作 各Agent的个体利益与系统的整体利益相一致 所以Agent只需追求自身的最大奖赏就可实现整体的最大奖赏。当对方是Foe时 对策退化为零和对策 采用Minimax Q算法。 在n人对策中 当对方是Friend时 只需将单Agent的Q学习扩展到n个局中人的组合动作空间上。当对方是Foe时 将n人划分为两对立方 应用Minimax 与NashQ相比 FFQ不需要维护其他Agent的Q函数 并能够保证收敛。但该算法要求Agent被告知其所面对的是Friend还是Foe 这与Agent的自主相悖。 5本章小结本章主要介绍了强化学习的基本理论。首先 简要介绍了强化学习的原理、模型、要素和马尔可夫决策过程 然后 分析了强化学习当中的三种主要算法和搜索策略 最后 概述了多Agent强化学习 介绍了多Agent强化学习的基本理论与马尔可夫博弈 并对比了多Agent强化学习的几种算法。 第三章 基于改进的启发式动作选择的强化学习 15 第三章 基于改进的启发式动作选择的强化学习 1启发式强化学习强化学习是一种在线学习方式 Agent在与环境不断的“试错与评价”性交互中学习 最终收敛到最优控制策略。所以 强化学习不必了解明确的环境模型 但是 强化学习算法收敛到最优解的时间是与状态动作空间呈非线性增长的。 强化学习算法的一个优点在于 无论采用何种探索与利用间的平衡策略 它都会收敛到最优的 即它独立于探索策略22 。利用强化学习算法的这个优点我们可以采用一个启发性的指导来进行动作选择。 启发式强化学习鉴于强化学习算法独立于探索策略的特点 Bianchi等在原有的动作选择策略中设计了一个启发函数H来指导Agent的行为 以加速算法的收敛 他把这个方法称为启发式强化学习 Heuristically Accelerated Reinforcement Learning HARL 并将它与Q学习结合起来 形成了启发式Q学习 Heuristically Accelerated LearningHAQL 23 Greedy探索策略是强化学习中最常用探索策略之一 它是在Agent进行动作选择时引用概率分布的形式。其策略概率分布如式 所示。argmax ttavtrandomotherwiseVsifqpsa 其中tVs是状态ts的评价函数 pqp为探索 利用平衡策略的参数 p越大 则Agent执行探索过程的概率就越小 randoma是当前动作集合中的一个随机动作。 在解决MDP问题时 启发式强化学习 HARL 采用一个启发函数 HSA 作用于动作选择策略 tttHsa表明环境状态为ts时动作ta的重要性。结合Greedy策略的概率分布如式 所示。argmax tttttttatrandomVsaHsaifqpsaotherwise 其中是作用于两实数上的操作函数 是两个调节参数用来控制启发函数对动作选择策略的影响 VH中的下标t表明这两个函数是随着时间的变化而不断更新的。一般取 为求和函数 16强化学习方法及应用技术研究 所示。 max 0HtttttttatttVsaVsaifasHsaotherwise 其中是一个较小的正值 Hts 是启发式下的最优动作。 定义启发函数从启发式强化学习的算法中可以看出 在初始阶段定义一个启发函数来指导Agent的动作选择策略进行动作选择是非常重要的一点。一般有两类方法来定义初始阶段的启发函数。 一类是在学习过程中利用获得的信息来推断这个启发函数。大多数启发函数的推断过程可以分为两个阶段 第一阶段是根据值函数V进行领域结构 domain structure 的提取 称为结构提取 Structure Extration 。第二阶段是在结构提取后构造启发式函数 称为启发式构造 Heuristic Composition 1给出了这个推断过程。Structure ExtractionHeuristic CompositionValue Function EstimationDomain StructureHeuristic图3 启发函数推断过程在这两个阶段可以分别采用若干种不同的方法进行求解。在机器人领域Bianchi等提出了两种简单的方法分别运用于结构提取阶段和启发式构造阶段 分别称为“Structure from Exploration”和“Heuristic Backpropagation” 文献 23 中有这些方法的具体过程。 启发式Q学习Q学习算法是强化学习中的一个重要里程碑 它采用一种简单的学习形式 但它是许多其他复杂学习方法的基础。 启发式Q学习 HAQL 就是启发式强化学习与Q学习的结合。取 为求和函数 所示argmax tttttttatrandomQsaHsaifqpsaotherwise 所示第三章 基于改进的启发式动作选择的强化学习 17 max 0HtttttattQsaQsaifasHsaotherwise HAQL学习算法Initialize initialheuristic function tHsa using appropriatemethod Observe currentstate RepeatSelect action usingequation Executeaction Receivereinforcement observenext state tHsausingequation updaterule max aQsaQsarQsaQsa Update state ss Until stoppingcriteria metWhere 11 ttttssssaaandaa 2对启发式强化学习的分析由于Q学习是对状态动作对的值函数进行估计以求得最优策略的 需要学习的动作值函数直接对最优动作值函数 Q进行近似 利用它与所遵循的策略无关的特点可简化对算法过程的分析。但是策略仍然只影响到上一步被访问的状态动作对并进行修正 所以为了使算法最终能够收敛到最优策略 则需要每个状态动作对都能被反复的访问 修正其值 这就无疑需要Q学习花费很多的时间在状态动作空间的探索上。 Q函数定义了在状态s下选择动作a将来会获得的折扣累积奖赏和 在Agent对同一状态动作对的多次访问过程中 如果定义一个方法来对这些反复访问进行分析来强化好的动作 弱化差的动作 并以此来指导动作的选择 无疑将会加速强化学习的收敛过程。 从以上对启发式强化学习过程介绍可以看出 HARL的目的就是要在动作选择时对Agent的选择具有指导作用。利用启发函数 tttHsa来指明在环境状态为ts时 动作ta重要性。 分析式 可以看出启发函数H的更新是依据Agent的Q值 在Agent与环境的交互初始阶段 Agent的Q值信息是不够精确的。所以必须借助其他方法来获取更多的有关环境模型的知识。 18 强化学习方法及应用技术研究 启发函数的推断过程的一个难点在于 应该在什么时候结束结构提取阶段 再在获得的领域知识上构建启发函数。如果过早的结束结构提取阶段 则会出现对环境模型的建立不完全现象 从而在利用启发函数来指导动作时 就会出现较大的扰动 23 3启发式强化学习的改进从以上对启发式强化学习的分析可以看出 HARL在初始阶段为了获取足够多的模型知识 充分利用Agent在探索过程中对状态转移概率函数P的粗略估计 然后通过P函数来完成对启发函数的建立。 Bianchi是分别用两个独立阶段来完成启发函数的构造过程的 鉴于Agent与环境交互是一个动态过程 我们可以采用一种方法将这两个过程融合为一个过程。 1基于状态回溯的启发式Q学习在MDP中 从Agent感知角度出发 它与环境的交互过程 实际上是一系列状态转移过程 Agent从初始状态0s出发 选择一个动作 进入到下一状态 依次不断进行下去直到最终状态fs出现。 对于这种状态转移过程 我们设计一个表L用来记录Agent的一幕中的所有状态转移和每次转移时的代价1 0ttss 代价的值根据具体的应用环境来设定。为了使过程记录的更完善 我们将Agent采用的动作也记录下来 这样 表L的每个元素就为Agent从初始态0s到终态fs的一个“状态 动作对”以及采用此“状态 动作对”的代价。 针对表L再定义一个函数 PLSA 为大于等于0的实数集合。 ttplsa表示状态从ts到终态fs的总代价。结合强化学习的迭代过程 得到函数PL的更新公式如式 所示。11 min fttttkkktplsaplsass 结合Q学习算法相应的启发函数H的更新公式更改为式 所示。max 0PLtttttattQsaQsaifasHsaotherwise 其中min PLttasplsa 表示取状态ts下总代价最小的动作。 Httas中可以看出 要找到满足条件的ta必须需要函数H在初始阶段有一定的环境知识 所以Bianchi等在论文中将应用启发式的强化学习分为 第三章 基于改进的启发式动作选择的强化学习 19 两个阶段 第一阶段不采用启发函数H 而是为初始H函数准备 第二阶段在执行动作选择策略中加入启发函数H 并根据值函数更新此启发函数。 PLttas函数PL是在每一幕的结束后得到更新的。这样 在强化学习过程中就不再需要上述的第一阶段 而是在每一幕学习结束后 Agent根据状态转移表L去更新函数PL 再完成对函数H的更新 称这种方法为基于状态回溯的启发式Q学习。 基于状态回溯的启发式Q学习算法Initialize currentstate RepeatSelect action usingequation Executeaction Receivereinforcement observenext state tHsausingequation updaterule max aQsaQsarQsaQsa Update state ss When one episode end Update PL usingequation stoppingcriteria metWhere 11 ttttssssaaandaa 2基于状态回溯的启发式Q学习分析从基于状态回溯的启发式强化学习的过程中可以看出 它之所以能够正确指导动作选择策略选择最优策略 是因为在Agent每一幕学习完成之后 在回溯过程中若发现这一幕中有好的策略存在 则更改之前的策略 若不存在好的策略 则沿用原来的策略。 当一幕中有多个好的策略存在时 此方法依然有效。下面以两个为例进行分析。 假设Agent的某一幕起始状态为0s 终态为fs Agent此幕下的状态转移表L为 0012 fflksasasasa lk为转移步数 12 aa为在状态 s下可采用的动作。 求证 运用基于状态回溯的启发式强化学习方法 在利用阶段 即qp

  强化学习方法及应用技术研究硕士论文,硕士研究生论文,硕士论文研究方法,硕士研究生论文格式,硕士研究生论文范文,硕士论文应用,硕士研究生学位论文,硕士论文,代写硕士论文,硕士论文开题报告

http://syn992.com/cidongzuohanshu/363.html
点击次数:??更新时间2019-07-27??【打印此页】??【关闭
  • Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有  
  • 点击这里给我发消息
在线交流 
客服咨询
【我们的专业】
【效果的保证】
【百度百科】
【因为有我】
【所以精彩】