Ask Me Anything: 言語モデルへのプロンプト提示のためのシンプルな戦略

大規模言語モデル(LLM)は、タスクを実行する方法を自然言語で示すプロンプトを提示するだけで、追加の訓練なしに新しいタスクへ容易に転移できる。しかし、プロンプトの設計は極めて脆弱なプロセスであり、わずかなプロンプトの変更がモデルの予測結果に大きな変動をもたらすことがあり、そのため多くの研究精力が「完璧なプロンプト」の設計に注がれている。本研究では、このような高コストなプロンプト設計を回避するため、複数の効果的だが完璧ではないプロンプトを生成し、それらを統合することで高品質なプロンプト戦略が得られるかを検討する。この観察に基づき、我々は「ASK ME ANYTHING(AMA)」と呼ばれる新たなプロンプト手法を提案する。まず、有効なプロンプト形式についての理解を深め、開放型生成を促す質問形式(例:「誰が公園に行ったか?」)のプロンプトが、モデル出力を制限する形式(例:「ジョンは公園に行った。真か偽かを出力せよ。」)よりも優れた性能を発揮することを確認した。本手法では、LLM自身を再帰的に用いて、タスク入力を効果的なQA形式に変換する。得られた複数のプロンプトを用いて、入力の真のラベルに対して複数のノイズを含む投票を取得する。さらに、これらのプロンプトは非常に異なる精度を持ち、複雑な依存関係を示すことが明らかになったため、ノイズを含む予測を統合するための弱教師学習(weak supervision)的手法を採用し、最終的な予測を生成する。AMAは、オープンソースのモデルファミリ(EleutherAI、BLOOM、OPT、T0など)およびモデルサイズ(125M〜175Bパラメータ)にわたり評価され、少サンプルベースライン(few-shot baseline)に対して平均10.2%の性能向上を達成した。この単純な戦略により、オープンソースのGPT-J-6Bモデルは、20の主要ベンチマークのうち15で、少サンプルGPT3-175Bの性能に匹敵し、かつ一部ではそれを上回ることを実証した。これらのタスク全体にわたる平均性能では、GPT-J-6Bモデルが少サンプルGPT3-175Bを上回った。本研究のコードは以下より公開している:https://github.com/HazyResearch/ama_prompting