RES-Q:リポジトリスケールにおけるコード編集型大規模言語モデルシステムの評価

大規模言語モデル(LLM)の指示従属能力は、大規模なコードリポジトリに対する編集などの複雑なタスクに迫る能力を持つLLMベースのシステムの開発を可能にした。しかし、LLMの挙動はプロンプトの変更に対して極めて敏感かつ予測困難であるため、こうしたシステムの今後の進化を促進するためには堅牢な評価ツールが不可欠である。本研究では、実際のGitHubコミットから抽出した100の手作業によるリポジトリ編集タスクを含む、自然言語による指示に基づく評価ベンチマーク「RES-Q」(Repository Editing Systemsの評価のための自然言語指示ベースのベンチマーク)を提案する。RES-Qは、編集指示とコードリポジトリが与えられた際に、LLMシステムがその指示を正しく解釈し、関連情報を収集するためにリポジトリを適切にナビゲートし、指定された要件を満たす適切な編集を構築する能力を評価する。本研究では、このような評価手法が従来のベンチマークに見られる問題を克服し、モデルの能力をより包括的に評価できると主張する。また、本研究では、我々が開発した言語エージェント開発ソフトウェア「Qurrent OS」を基盤としたリポジトリ編集システム上で、最先端の複数のLLMを言語エージェントとして評価した。HumanEvalにおけるパフォーマンス差がわずか1%にとどまるにもかかわらず、Claude Sonnet 3.5はRES-QにおいてGPT-4oより12%高いpass@1スコアを達成しており、従来のベンチマークが飽和に近づく中で、RES-Qがモデルの能力差をより正確に区別できる可能性を示している。さらに、トークン効率、既存ベンチマークとのパフォーマンス相関、および閉鎖型モデルとオープンソースモデルとの間の興味深い差異についても検討した。コードおよびデータセットは、https://github.com/Qurrent-AI/RES-Q にて公開されている。