Auffälligkeitsphrasenbewusste dichte Retrieval: Kann ein dichter Retriever einen sparsen nachahmen?

Trotz ihrer jüngsten Beliebtheit und der gut bekannten Vorteile hinterlassen dichte Retriever weiterhin Lücken gegenüber sparsen Methoden wie BM25 hinsichtlich der zuverlässigen Erkennung markanter Phrasen und seltener Entitäten in der Abfrage sowie der Generalisierbarkeit auf außerhalb des Domänenbereichs liegende Daten. Es wurde behauptet, dass dies eine inhärente Beschränkung dichter Modelle sei. Wir widerlegen diese Behauptung, indem wir den Salient Phrase Aware Retriever (SPAR) einführen, einen dichten Retriever mit der lexikalischen Übereinstimmungsfähigkeit eines sparsen Modells. Wir zeigen, dass ein dichtes lexikalisches Modell Λ trainiert werden kann, um ein sparses Modell nachzuahmen, und dass SPAR durch die Erweiterung eines herkömmlichen dichten Retriever mit Λ aufgebaut wird. Empirisch zeigt SPAR eine überlegene Leistung auf einer Vielzahl von Aufgaben, darunter fünf Fragebeantwortungs-Datensätze, MS MARCO Passage Retrieval sowie die EntityQuestions- und BEIR-Benchmark-Datensätze für die Evaluation außerhalb des Domänenbereichs, wobei die Leistung sowohl state-of-the-art dichter als auch sparsen Retriever übertroffen wird. Der Quellcode und die Modelle von SPAR sind verfügbar unter: https://github.com/facebookresearch/dpr-scale/tree/main/spar