Approximate Nearest Neighbor Negative Contrastive Learning für dense Textretrieval

Die Durchführung von Textretrieval in einem dichten, lernbaren Repräsentationsraum bietet zahlreiche vorteilhafte Eigenschaften gegenüber der sparsen Retrieval-Technik. Dennoch erweist sich die Effektivität des dichten Retrieval (DR) oft als verbessert, wenn sie mit sparsen Retrieval-Methoden kombiniert wird. In diesem Artikel identifizieren wir den Hauptengpass in den Trainingsmechanismen, bei denen die negativen Instanzen, die während des Trainings verwendet werden, nicht repräsentativ für die irrelevanten Dokumente im Testphase sind. Wir präsentieren Approximate Nearest Neighbor Negative Contrastive Estimation (ANCE), einen Trainingsmechanismus, der negative Instanzen aus einem Approximate Nearest Neighbor (ANN)-Index der Korpusdaten konstruiert, der parallel zum Lernprozess aktualisiert wird, um realistischere negative Trainingsbeispiele auszuwählen. Dies löst grundlegend die Diskrepanz zwischen der Datenverteilung, die bei der Trainings- und Testphase des DR verwendet wird. In unseren Experimenten steigert ANCE die Leistung des BERT-Siamese-DR-Modells so stark, dass es alle konkurrierenden dichten und sparsen Retrieval-Baselines übertrifft. Zudem erreicht es eine Genauigkeit, die nahe an der des sparsen Retrieval plus BERT-Reranking mit dem Skalarprodukt im ANCE-gelernten Repräsentationsraum liegt, und bietet gleichzeitig eine Beschleunigung um fast den Faktor 100.