OPT-IML:一般化の視点から見た言語モデル指示メタラーニングのスケーリング

近年の研究では、大規模な事前学習済み言語モデルを、指示(instruction)によって記述されたタスクのコレクション上でファインチューニングすること(いわゆる「インストラクションチューニング」)により、未見のタスクに対するゼロショットおよびフェイショットの一般化性能が向上することが示されている。しかし、インストラクションチューニングプロセスにおけるさまざまな意思決定がもたらす性能のトレードオフについては、まだ十分な理解が得られていない。そのような意思決定には、インストラクションチューニングベンチマークの規模と多様性、異なるタスクサンプリング戦略、例示(demonstration)を用いた・用いないファインチューニング、推論や対話に特化したデータセットを用いたトレーニング、そして最終的にファインチューニングの目的関数そのものなど、多岐にわたる要素が含まれる。本論文では、モデルサイズおよびベンチマークサイズの両方をスケーリングした状況下で、インストラクションチューニングの各意思決定が下流タスク性能に与える影響を体系的に分析する。そのために、8つの既存ベンチマークから統合された2000の自然言語処理(NLP)タスクをタスクカテゴリに分類した大規模なベンチマーク「OPT-IML Bench」を構築し、以下の3種類のモデル一般化能力を測定可能な評価フレームワークを整備した:(1)完全にホールドアウトされたカテゴリからのタスクへの一般化、(2)既視カテゴリ内のホールドアウトタスクへの一般化、(3)既視タスク内のホールドアウトインスタンスへの一般化。このフレームワークを基盤として、まずOPT-30Bを対象にインストラクションチューニングの意思決定に関する知見を提示し、それらの知見を活用してOPT-IML 30Bおよび175Bを訓練した。これらは、OPTモデルをインストラクションチューニングしたバージョンである。OPT-IMLは、タスクと入力形式が多様な4つの異なる評価ベンチマーク(PromptSource、FLAN、Super-NaturalInstructions、UnifiedSKG)において、両スケールで3種類の一般化能力を実現している。単にすべてのベンチマークでOPTを顕著に上回るだけでなく、各ベンチマークに特化してファインチューニングされた既存モデルと比較しても、非常に競争力のある性能を示している。本研究では、両スケールのOPT-IMLを公開するとともに、評価フレームワークであるOPT-IML Benchも同時に公開する。