17日前
密度検索における文書表現の拡張:補間と摂動を用いた手法
Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park

要約
密度型検索モデルは、入力クエリに対して密度表現空間上で最も関連性の高い文書を検索することを目的としており、その優れた成果により注目を集めている。しかしながら、密度型モデルは優れた性能を発揮するためには膨大なラベル付き学習データを必要とする一方で、人間によるラベル付けが施されたクエリ-文書ペアを収集することはしばしば困難である。この課題に対処するため、本研究では単純ながら有効な「密度型検索のための文書拡張(Document Augmentation for dense Retrieval; DAR)」フレームワークを提案する。本フレームワークは、文書表現に対して補間(interpolation)および摂動(perturbation)を適用することで表現を拡張する。DARの有効性は、2つのベンチマークデータセットを用いた検索タスクにおいて検証され、ラベル付きおよびラベルなしの文書における密度型検索において、提案手法が従来のベースラインを顕著に上回ることを示した。