CoIR: Eine umfassende Benchmarksuiten für Modelle der Codeinformationsabrufung

Trotz des erheblichen Erfolgs der Informationsabrufung (Information Retrieval, IR) in verschiedenen NLP-Aufgaben, behandeln die meisten IR-Systeme Abfragen und Korpora hauptsächlich in natürlicher Sprache und vernachlässigen dabei den Bereich des Code-Abrufs. Der Code-Abruf ist von entscheidender Bedeutung, bleibt jedoch unterforscht, wobei bestehende Methoden und Benchmarks die Vielfalt des Codes in verschiedenen Bereichen und Aufgaben unzureichend darstellen. Um diese Lücke zu schließen, präsentieren wir COIR (Code Information Retrieval Benchmark), ein robustes und umfassendes Benchmarking-Tool, das speziell entwickelt wurde, um die Fähigkeiten im Code-Abruf zu bewerten. COIR besteht aus zehn sorgfältig zusammengestellten Code-Datensätzen, die acht unterschiedliche Abrufaufgaben in sieben diversen Domänen abdecken. Zunächst diskutieren wir die Erstellung von COIR und dessen vielseitige Datensatzkomposition. Anschließend evaluieren wir neun weit verbreitete Abrufmodelle mithilfe von COIR und legen dabei erhebliche Schwierigkeiten bei der Durchführung von Code-Abrufaufgaben auch mit den modernsten Systemen offen. Um eine einfache Einführung und Integration in bestehende Forschungsabläufe zu ermöglichen, wurde COIR als benutzerfreundliches Python-Framework entwickelt, das über pip leicht installierbar ist. Es teilt sich das gleiche Daten-Schema wie andere bekannte Benchmarks wie MTEB und BEIR, was nahtlose Cross-Benchmark-Evaluierungen ermöglicht. Mit COIR streben wir an, die Forschung im Bereich des Code-Abrufs zu beleben und ein flexibles Benchmarking-Tool bereitzustellen, das weitere Entwicklung und Erforschung von Code-Abrufsystemen fördert.https://github.com/CoIR-team/coir.