10日前

エネルギーベースのトランスフォーマーはスケーラブルな学習者であり思考者である

Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Peixuan Han, Hyeonjeong Ha, Aman Chadha, Yilun Du, Heng Ji, Jundong Li, Tariq Iqbal

論文の詳細を見る

要約

推論時の計算技術は、人間のシステム2思考に類似しており、最近モデルの性能向上のために注目を集めています。しかし、既存の大多数のアプローチにはいくつかの制限があります：それらはモダリティ特異的（例えば、テキストのみで動作）、問題特異的（例えば、数学やコーディングのような検証可能な領域）であるか、または無教師事前学習に加えて追加の監督/学習を必要とします（例えば、検証者や検証可能な報酬）。本論文では、「これらのシステム2思考アプローチを一般化し、みずから思考する能力を完全に無教師学習から獲得するモデルを開発することは可能か」という問いを提起します。興味深いことに、入力と候補予測との適合性を明示的に検証し、その後この検証者に対する最適化問題として予測問題を再定式化することで、答えは「はい」であることがわかりました。具体的には、エネルギー値を各入力と候補予測ペアに割り当てるための新しいクラスのエネルギーベースモデル（EBM）であるエネルギーベーストランスフォーマー（EBT）を訓練しました。これにより勾配降下に基づくエネルギー最小化が収束するまで予測を行うことができます。離散的な（テキスト）および連続的な（視覚的）モダリティにおいても、EBTはトレーニング中に支配的なTransformer++アプローチよりも速いスケーリング速度を示し、データ量、バッチサイズ、パラメータ数、FLOPs（浮動小数点演算回数）、深さに関して最大35%高いスケーリング率を達成しています。推論時には、言語タスクにおいてTransformer++よりも29%以上の性能向上が見られました。また、画像ノイズ除去においてもDiffusion Transformersより少ない順方向パスを使用しながら優れた結果を得ています。さらに、事前学習性能が同じかそれ以下の状況でもほとんどのダウンストリームタスクで既存モデルよりも良い結果が得られていることから、EBTが既存手法よりも一般的な適用性を持つことが示唆されます。したがって、EBTはモデルの学習能力和思考能力双方のスケーリングにおける有望な新規パラダイムです。