8ヶ月前

概要

情報検索（Information Retrieval: IR）は、さまざまな自然言語処理タスクにおいて大きな成功を収めていますが、ほとんどのIRシステムは主に自然言語のクエリとコーパスを扱い、コード検索の領域を軽視しています。コード検索は極めて重要であり、既存の手法やベンチマークが様々なドメインやタスクにおけるコードの多様性を十分に表現していないという問題があります。このギャップに対応するため、私たちはCOIR（Code Information Retrieval Benchmark）を提案します。これは、コード検索能力を評価するために特別に設計された堅牢で包括的なベンチマークです。COIRには7つの異なるドメインにまたがる8つの特徴的な検索タスクを対象とした10の精査されたコードデータセットが含まれています。まず、COIRの構築とその多様なデータセットの構成について説明します。さらに、9つの広く使用されている検索モデルを使用してCOIRでの評価を行い、最先端のシステムであってもコード検索タスクに取り組む際の著しい困難さを明らかにしました。既存の研究ワークフローへの容易な導入と統合を促進するため、COIRはユーザー向けのPythonフレームワークとして開発され、pip経由で簡単にインストールできます。他の人気のあるベンチマーク（MTEBやBEIRなど）と同じデータスキーマを持つことで、ベンチマーク間でのシームレスな評価が可能となっています。COIRを通じて、私たちはコード検索分野での研究活性化を目指し、より多くの開発と探求を促す多用途なベンチマーキングツールを提供します。https://github.com/CoIR-team/coir.

ソースPDF