17日前

BEIR:情報検索モデルのゼロショット評価のための異種ベンチマーク

Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, Iryna Gurevych
BEIR:情報検索モデルのゼロショット評価のための異種ベンチマーク
要約

既存のニューラル情報検索(IR)モデルは、しばしば同質的で限定的な設定下で研究されており、これによりその分布外(OOD)一般化能力に関する洞察は著しく制限されてきた。この問題を解決し、研究者がモデルの有効性を広範に評価できるようにするため、本研究では情報検索用の堅牢で多様な評価ベンチマーク「Benchmarking-IR(BEIR)」を提案する。BEIRは、異なるテキスト検索タスクおよびドメインから慎重に選定した18の公開データセットを活用し、語彙的・スパース・密度的・ラテンインタラクション・再ランク化といったアーキテクチャを含む10の最先端検索システムを評価している。実験結果から、BM25は堅牢なベースラインであることが示された一方で、再ランク化およびラテンインタラクションに基づくモデルは平均的に最高のゼロショット性能を達成しているが、計算コストが高くなる傾向にある。一方、密度的およびスパース検索モデルは計算効率が優れているものの、他のアプローチに比べてしばしば性能が劣り、その一般化能力における大幅な改善の余地が示唆された。本フレームワークが、既存の検索システムの評価と理解をより深める助けとなり、今後のより堅牢かつ一般化性の高いシステムの開発を加速することを期待する。BEIRはGitHubにて公開されており、https://github.com/UKPLab/beir から入手可能である。

BEIR:情報検索モデルのゼロショット評価のための異種ベンチマーク | 最新論文 | HyperAI超神経