Effiziente Passagenretrieval mit Hashing für open-domain Fragebeantwortung

Die meisten modernen Systeme für offene Domänen-Fragebeantwortung verwenden ein neuronales Retrieval-Modell, um Abschnitte in kontinuierliche Vektoren zu kodieren und diese aus einer Wissensquelle zu extrahieren. Solche Retrieval-Modelle erfordern jedoch oft erheblichen Speicherplatz, da ihre Abschnittsindexe sehr groß sind. In diesem Paper stellen wir den Binary Passage Retriever (BPR) vor, ein speichereffizientes neuronales Retrieval-Modell, das eine Lernen-zu-Hash-Technik in das state-of-the-art Dense Passage Retriever (DPR) integriert, um den Abschnittsindex mithilfe kompakter binärer Codes anstelle kontinuierlicher Vektoren darzustellen. BPR wird mit einem mehrstufigen Ziel über zwei Aufgaben trainiert: effiziente Kandidatengenerierung basierend auf binären Codes und genaue Neurangierung basierend auf kontinuierlichen Vektoren. Im Vergleich zum DPR reduziert BPR den Speicherverbrauch erheblich von 65 GB auf 2 GB, ohne dabei an Genauigkeit auf zwei Standardbenchmarks für offene Domänen-Fragebeantwortung – Natural Questions und TriviaQA – zu verlieren. Unser Code und die trainierten Modelle sind verfügbar unter https://github.com/studio-ousia/bpr.