
要約
最新のオープンドメイン質問応答システムの多くは、文書を連続ベクトルに符号化し、知識源から抽出するニューラル検索モデルを用いている。しかし、このような検索モデルは、文書インデックスが極めて巨大であるため、実行に膨大なメモリを必要とする傾向がある。本論文では、最新のDense Passage Retriever(DPR)に学習に基づくハッシュ化技術(learning-to-hash)を統合し、連続ベクトルではなくコンパクトなバイナリコードで文書インデックスを表現する、メモリ効率の高いニューラル検索モデル「Binary Passage Retriever(BPR)」を提案する。BPRは、バイナリコードに基づく効率的な候補生成と、連続ベクトルに基づく高精度な再順序付けという二つのタスクを統合したマルチタスク学習により訓練される。自然言語質問(Natural Questions)およびTriviaQAという2つの標準的なオープンドメイン質問応答ベンチマークにおいて、DPRと比較して精度を損なうことなく、メモリ消費量を65GBから2GBまで大幅に削減することに成功した。本研究のコードおよび学習済みモデルは、https://github.com/studio-ousia/bpr にて公開されている。