Command Palette
Search for a command to run...
Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

要約
自己改善型システムは、継続的な適応のために環境との相互作用を必要とする。本研究では、単一のモデルが二つの役割を果たす強化学習フレームワーク「SPICE(Self-Play In Corpus Environments)」を提案する。このモデルは、「チャレンジャー」として大規模なドキュメントコーパスから文書を抽出し、多様な推論課題を生成する役割を担い、また「リゾナラー」としてそれらの課題を解決する役割を果たす。敵対的なダイナミクスを通じて、チャレンジャーはリゾナラーの能力の限界付近に自動的にカリキュラムを構築する一方、コーパスに基づく環境信号により、持続的な改善に不可欠な豊富でほぼ枯渇しない外部信号を提供する。既存の非接地型自己対戦手法とは異なり、SPICEは複数のモデルファミリーにおいて、数学的推論(+8.9%)および一般推論(+9.8%)のベンチマークで一貫した性能向上を達成した。我々の分析から、ドキュメントに基づく接地が、SPICEにおいて自らのより困難な目標を継続的に生成し、それを達成するための鍵となる要素であることが明らかになった。これにより、持続的な自己改善が可能となる。