HyperAI超神经

Q 学习 Q-Learning

Q 学习 (Q-Learning) 是一种无模型、离策略的强化学习算法,它将在给定智能体当前状态的情况下找到最佳的行动方案。根据 agent 在环境中的位置,它将决定下一步要采取的操作。「Q」指的是算法计算的函数——在给定状态下采取的行动的预期奖励。

Q 学习的目标是根据当前状态找到最佳行动方案。为此,它可能会制定自己的规则,也可能会在规定的政策之外运作。这意味着实际上并不需要策略,因此将其称为「off-policy」。对于任何有限的马尔科夫决策过程,Q 学习找到一个最优策略,即从当前状态开始,在任何和所有连续步骤中最大化总奖励的期望值。在给定无限探索时间和部分随机策略的情况下,Q 学习可以为任何给定的有限马尔可夫决策过程识别最佳动作选择策略。

Q 学习的一个例子是广告推荐系统。在正常的广告推荐系统中,观众获得的广告是基于观众之前的购买或可能访问过的网站。如果观众购买了电视,观众会得到推荐的不同品牌的电视。 

Q-Learning 中的重要术语

  1. 状态:状态 S (States) 表示 agent 在环境中的当前位置。 
  2. 动作:动作 A (Action) 是 agent 处于特定状态时采取的步骤。
  3. 奖励:对于每一个动作,智能体都会获得正或负的奖励。
  4. 情节:当 agent 最终处于终止状态并且无法采取新操作时。
  5. Q 值:用于确定在特定状态 S 下执行的动作 A 的好坏程度。表示为 Q (A, S) 。
  6. 时间差异:通过使用当前状态和操作以及先前状态和操作的值来查找 Q 值的公式。