17日前
あなたのDRAGONを訓練する方法:汎用的な密集型検索へ向けた多様な増強
Sheng-Chieh Lin, Akari Asai, Minghan Li, Barlas Oguz, Jimmy Lin, Yashar Mehdad, Wen-tau Yih, Xilun Chen

要約
近年、密な検索(Dense Retrieval: DR)の性能向上を目指して、教師なしの対照学習や仮想クエリ生成などのさまざまな技術が開発されてきた。しかし、既存のDRモデルは、教師あり検索とゼロショット検索の間で効果性のトレードオフに直面しがちであり、一部の研究者らはこれがモデル容量の限界に起因すると指摘している。本研究ではこの仮説に反論し、モデルサイズを増大させることなく、教師ありおよびゼロショット両方の検索において高い精度を達成可能な汎化性の高いDRを学習可能であることを示す。特に、データ拡張(Data Augmentation: DA)の枠組みの下で、DRにおける対照学習の仕組みを体系的に検証した。その結果、生成モデルによるクエリ拡張やクロスエンコーダを用いた仮想関連ラベルの作成といった従来のDA手法が、しばしば非効率的かつ最適でないことが明らかになった。そこで、多様なクエリと多様な監視信号を用いた新たなDAアプローチを提案し、段階的に汎化性の高いDRを訓練する。その結果、多様な拡張を用いて学習された本研究の密な検索モデル「DRAGON」は、BERT-baseサイズのDRとして初めて、教師ありおよびゼロショット評価の両方で最先端の性能を達成し、より複雑な後段相互作用(late interaction)を採用するモデル(ColBERTv2やSPLADE++)とさえ競合可能な性能を発揮した。