2日前

SPICE：コーパス環境下における自己対戦が推論能力を向上させる

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

要約

自己改善型システムは、継続的な適応のために環境との相互作用を必要とする。本研究では、単一のモデルが二つの役割を果たす強化学習フレームワーク「SPICE（Self-Play In Corpus Environments）」を提案する。このモデルは、「チャレンジャー」として大規模なドキュメントコーパスから文書を抽出し、多様な推論課題を生成する役割を担い、また「リゾナラー」としてそれらの課題を解決する役割を果たす。敵対的なダイナミクスを通じて、チャレンジャーはリゾナラーの能力の限界付近に自動的にカリキュラムを構築する一方、コーパスに基づく環境信号により、持続的な改善に不可欠な豊富でほぼ枯渇しない外部信号を提供する。既存の非接地型自己対戦手法とは異なり、SPICEは複数のモデルファミリーにおいて、数学的推論（+8.9%）および一般推論（+9.8%）のベンチマークで一貫した性能向上を達成した。我々の分析から、ドキュメントに基づく接地が、SPICEにおいて自らのより困難な目標を継続的に生成し、それを達成するための鍵となる要素であることが明らかになった。これにより、持続的な自己改善が可能となる。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

SPICE：コーパス環境下における自己対戦が推論能力を向上させる

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

要約

AI で AI を構築

Hyper Newsletters