Command Palette
Search for a command to run...
Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

摘要
自监督学习的规模化已推动语言与视觉领域取得突破性进展,但在强化学习(RL)领域,类似进展却一直难以实现。本文研究了自监督强化学习的关键构建模块,这些模块显著提升了模型的可扩展性,其中网络深度成为关键因素。近年来,大多数强化学习论文采用浅层网络结构(约2至5层),而我们证明,将网络深度扩展至1024层可显著提升性能。实验在无监督的目标条件设置下进行,即不提供任何示范或奖励信号,因此智能体必须从零开始自主探索,并学习如何最大化达成指定目标的概率。在模拟的运动与操作任务上评估表明,我们的方法使自监督对比强化学习算法的性能提升了2倍至50倍,显著优于其他目标条件基线方法。增加模型深度不仅提升了任务成功率,还从根本上改变了智能体所学习到的行为模式。