Command Palette

Search for a command to run...

2 天前

用于自监督强化学习的1000层网络:增加深度可实现新的目标达成能力

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

用于自监督强化学习的1000层网络:增加深度可实现新的目标达成能力

摘要

自监督学习的规模化已推动语言与视觉领域取得突破性进展,但在强化学习(RL)领域,类似进展却一直难以实现。本文研究了自监督强化学习的关键构建模块,这些模块显著提升了模型的可扩展性,其中网络深度成为关键因素。近年来,大多数强化学习论文采用浅层网络结构(约2至5层),而我们证明,将网络深度扩展至1024层可显著提升性能。实验在无监督的目标条件设置下进行,即不提供任何示范或奖励信号,因此智能体必须从零开始自主探索,并学习如何最大化达成指定目标的概率。在模拟的运动与操作任务上评估表明,我们的方法使自监督对比强化学习算法的性能提升了2倍至50倍,显著优于其他目标条件基线方法。增加模型深度不仅提升了任务成功率,还从根本上改变了智能体所学习到的行为模式。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供