10日前
実行フィードバックを用いた自己対戦:大規模言語モデルの指示追随能力の向上
Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou

要約
大規模言語モデル(LLM)の核心的な能力の一つは、自然言語による指示に従うことができる点である。しかし、手動のアノテーションを用いずに、LLMの複雑な指示従い能力を向上させるために高品質なトレーニングデータを自動的に構築するという課題は、依然として解決されていない。本論文では、指示従いトレーニングデータを自動生成するための、初めてのスケーラブルかつ信頼性の高い手法であるAutoIFを提案する。AutoIFは、指示従いデータの品質評価をコード検証に変換する。具体的には、LLMに指示の生成、その応答の正しさを検証するためのコードの生成、およびコードの正しさを検証するユニットテストサンプルの生成を要求する。その後、実行フィードバックに基づく拒否サンプリングにより、Supervised Fine-Tuning(SFT)およびHuman Feedbackからの強化学習(RLHF)のトレーニングに使用可能なデータを生成する。AutoIFは、トップクラスのオープンソースLLMであるQwen2およびLLaMA3を対象に、自己整合(self-alignment)および強さから弱さへの蒸留(strong-to-weak distillation)の設定において、SFT、Offline DPO、Online DPOの3つのトレーニングアルゴリズムすべてで顕著な性能向上を達成した。本研究のコードは、https://github.com/QwenLM/AutoIF にて公開されている。