HyperAIHyperAI

Command Palette

Search for a command to run...

Approximate Nearest Neighbor Negative Contrastive Learning für dense Textretrieval

Lee Xiong Chenyan Xiong Ye Li Kwok-Fung Tang Jialin Liu Paul Bennett Junaid Ahmed Arnold Overwijk

Zusammenfassung

Die Durchführung von Textretrieval in einem dichten, lernbaren Repräsentationsraum bietet zahlreiche vorteilhafte Eigenschaften gegenüber der sparsen Retrieval-Technik. Dennoch erweist sich die Effektivität des dichten Retrieval (DR) oft als verbessert, wenn sie mit sparsen Retrieval-Methoden kombiniert wird. In diesem Artikel identifizieren wir den Hauptengpass in den Trainingsmechanismen, bei denen die negativen Instanzen, die während des Trainings verwendet werden, nicht repräsentativ für die irrelevanten Dokumente im Testphase sind. Wir präsentieren Approximate Nearest Neighbor Negative Contrastive Estimation (ANCE), einen Trainingsmechanismus, der negative Instanzen aus einem Approximate Nearest Neighbor (ANN)-Index der Korpusdaten konstruiert, der parallel zum Lernprozess aktualisiert wird, um realistischere negative Trainingsbeispiele auszuwählen. Dies löst grundlegend die Diskrepanz zwischen der Datenverteilung, die bei der Trainings- und Testphase des DR verwendet wird. In unseren Experimenten steigert ANCE die Leistung des BERT-Siamese-DR-Modells so stark, dass es alle konkurrierenden dichten und sparsen Retrieval-Baselines übertrifft. Zudem erreicht es eine Genauigkeit, die nahe an der des sparsen Retrieval plus BERT-Reranking mit dem Skalarprodukt im ANCE-gelernten Repräsentationsraum liegt, und bietet gleichzeitig eine Beschleunigung um fast den Faktor 100.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp