摘要
我们提出了一种新颖的方法,用于学习优先考虑竞争目标的层次抽象,从而提高全局预期奖励。该方法采用了一个具有多个标量输出的次级奖励代理(secondary rewarding agent),每个输出对应一个不同的抽象层次。传统代理随后以层次化的方式学习最大化这些输出,每层的优化都以前一层的最大化为条件。我们推导出一个方程,按优先级对这些标量值和全局奖励进行排序,从而形成一种需求层次结构,指导目标的设定。在Pendulum v1环境中的实验结果表明,该方法相比基线实现表现出优越性能,并达到了当前最佳水平。