5ヶ月前

概要

ソフトウェアリポジトリ全体に関する理解と推論は、インテリジェントなソフトウェア工学ツールにとって不可欠な能力である。これまでのベンチマーク、例えばCoSQAやCodeQAは分野の進展に寄与してきたが、それらは主に小さな自己完結型のコードスニペットに焦点を当てており、現実世界のリポジトリが持つ複雑性を捉えていない。実際の開発環境では、効果的な理解と推論には複数ファイル間の移動、ソフトウェアアーキテクチャの把握、そして長距離にわたるコード依存関係に基づいた答えの根拠付けがしばしば求められる。本論文では、現実的なコード環境における自動QAシステムの研究を促進するため、リポジトリレベルのコードQA（質問応答）ベンチマークであるSWE-QAを提案する。SWE-QAは、意図理解、ファイル間推論、マルチホップ依存関係解析など、多様なカテゴリにわたる576件の高品質な質問・回答ペアを含む。SWE-QAの構築にあたり、まず11の代表的なGitHubリポジトリから77,100件のIssueをクロールした。これらのIssueから抽出された自然発生的な開発者による質問を分析した結果、リポジトリレベルの質問を二段階の分類体系（二層分類体系）として構築し、各カテゴリごとに初期質問（シード質問）を設定した。各カテゴリについて、手動で質問を精査・検証し、対応する回答を収集した。さらに、プロトタイプ応用として、LLMエージェントが推論と行動を自動的に実行して答えを特定するエージェントフレームワーク「SWE-QA-Agent」を開発した。本研究では、さまざまなコンテキスト拡張戦略の下で6種類の先進的なLLMをSWE-QA上で評価した。実験結果から、特に本研究で提案するSWE-QA-AgentフレームワークがリポジトリレベルQAの課題解決において大きな可能性を示している一方で、未解決の課題が明らかとなり、今後の研究の方向性が示唆された。

ソースPDF