当前位置:小鱼儿玄机1站开奘结果 > 次动作函数 >

强化学习 - xmeo - 博客园

  强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益

  主体在状态s0选择某个动作a0A,主体根据概率 转移到状态s1,然后执行动作a1,...如此下去我们可以得到这样的过程:

  求解V的目的是为找到一个当前状态s下最优的行动策略服务的

  是针对的是所有的状态s的,确定了每一个状态s的下一个动作a

  在许多实际问题中,状态转移概率分布Psa和回报函数R(s)不能显式的得到

  当获得了很多类似上面的转移路径后(样本),我们可以用最大似然估计来估计状态转移概率。

  强化学习更加专注于在线规划,需要在探索(在未知的领域)和利用(现有知识)之间找到平衡

http://syn992.com/cidongzuohanshu/340.html
点击次数:??更新时间2019-07-06??【打印此页】??【关闭
  • Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有  
  • 点击这里给我发消息
在线交流 
客服咨询
【我们的专业】
【效果的保证】
【百度百科】
【因为有我】
【所以精彩】