Command Palette
Search for a command to run...
Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

要約
自己教師付き学習(self-supervised learning)のスケーリングにより、言語および視覚分野で画期的な進展がもたらされたが、強化学習(RL)においては類似の進展は依然として得られていない。本論文では、自己教師付きRLのための構成要素に着目し、特にネットワークの深さがスケーラビリティ向上に大きく寄与することを明らかにする。近年の多くのRL研究では、浅いアーキテクチャ(約2〜5層)が用いられているが、本研究では、ネットワークの深さを最大1024層まで拡張することで、性能の顕著な向上が可能であることを示す。実験は、示範や報酬が提供されない非教師付きの目標条件付き設定で実施されており、エージェントは初期状態から探索を開始し、指定された目標に到達する確率を最大化する方法を学習しなければならない。シミュレートされた歩行および操作タスクにおいて評価した結果、本手法は自己教師付きコントラスト型RLアルゴリズムの性能を2倍から50倍まで向上させ、他の目標条件付きベースラインを上回った。モデルの深さを増加させることで、成功確率の向上だけでなく、学習される行動の質的変化も引き起こすことが明らかになった。