2ヶ月前
大規模言語モデルの指示追従評価
Jeffrey Zhou; Tianjian Lu; Swaroop Mishra; Siddhartha Brahma; Sujoy Basu; Yi Luan; Denny Zhou; Le Hou

要約
大規模言語モデル(LLM)の主要な能力の一つは、自然言語の指示に従うことです。しかし、そのような能力の評価は標準化されていません:人間による評価はコストがかかり、時間がかかり、客観的に再現できないという問題があります。一方、LLMを用いた自動評価は、評価を行うLLMの能力によって偏ったり制限されたりする可能性があります。これらの課題を克服するために、私たちは大規模言語モデル向けの「指示追従評価」(IFEval)を導入します。IFEvalは簡便で再現性の高い評価ベンチマークです。このベンチマークでは、「400字以上で記述する」や「AIというキーワードを最低3回使用する」などの「検証可能な指示」に焦点を当てています。私たちは25種類の検証可能な指示を特定し、約500個のプロンプトを作成しました。各プロンプトには1つ以上の検証可能な指示が含まれています。市場で広く利用されている2つの大規模言語モデルについて評価結果を示します。私たちのコードとデータは以下のURLから入手できます:https://github.com/google-research/google-research/tree/master/instruction_following_eval