17日前
密度型テキスト検索のための近似最近傍負例対比学習
Lee Xiong, Chenyan Xiong, Ye Li, Kwok-Fung Tang, Jialin Liu, Paul Bennett, Junaid Ahmed, Arnold Overwijk

要約
密度的な学習表現空間におけるテキスト検索は、スパース検索に比べて多くの魅力的な利点を有している。しかし、密度的検索(DR)の効果は、しばしばスパース検索と組み合わせることで実現される。本論文では、主なボトルネックがトレーニングメカニズムにあり、トレーニング時に使用される負例(negative instances)が、実際のテスト時に出現する無関係な文書を適切に代表していないことに着目する。本論文では、ドキュメントコーパスの近似最近傍(ANN)インデックスから負例を構築する、近似最近傍負例対比推定(Approximate Nearest Neighbor Negative Contrastive Estimation; ANCE)というトレーニングメカニズムを提案する。このANNインデックスは学習プロセスと並列に更新され、より現実的な負例をトレーニングに選択可能となる。これにより、DRのトレーニングとテストで用いられるデータ分布の乖離を根本的に解決する。実験の結果、ANCEはBERT-Siamese型DRモデルの性能を大幅に向上させ、すべての競合する密度的およびスパース検索ベースラインを上回った。また、ANCEで学習された表現空間において、ドット積を用いたスパース検索とBERT再ランク付けの精度にほぼ匹敵しつつ、ほぼ100倍の高速化を達成した。