HyperAIHyperAI

Command Palette

Search for a command to run...

Große Dual-Encoder sind verallgemeinerbare Retriever

Zusammenfassung

Es wurde gezeigt, dass Dual-Encoder-Modelle, die auf einem bestimmten Domänenbereich trainiert wurden, oft nicht gut auf andere Domänen generalisieren können, insbesondere für Retrieval-Aufgaben. Eine weit verbreitete Annahme besagt, dass die Engstelle (bottleneck layer) eines Dual Encoders – bei der das Endergebnis lediglich ein Skalarprodukt zwischen einem Abfragevektor und einem Passagenvektor ist – zu eingeschränkt sei, um Dual-Encoder-Modelle als effektive Retrieval-Modelle für die Generalisierung außerhalb der Trainingsdomäne zu nutzen. In dieser Arbeit stellen wir diese Annahme in Frage, indem wir die Größe des Dual-Encoder-Modells erhöhen, während die Größe des Engstellen-Embeddings konstant bleibt. Mit einem mehrstufigen Trainingsansatz führt die Skalierung der Modellgröße überraschenderweise zu einer erheblichen Verbesserung auf einer Vielzahl von Retrieval-Aufgaben, insbesondere bei der Generalisierung außerhalb der Domäne. Experimentelle Ergebnisse zeigen, dass unsere Dual-Encoder-Modelle, die Generalizable T5-basierten Retrievers (GTR), die Leistung von ColBERT~\cite{khattab2020colbert} sowie bestehenden sparse und dense Retrievers auf dem BEIR-Datensatz~\cite{thakur2021beir} deutlich übertrifft. Besonders überraschend ist, dass unsere Ablationstudie ergab, dass GTR äußerst dateneffizient ist: Es genügt lediglich 10 % des überwachten MS MARCO-Datensatzes, um die beste Leistung bei der Generalisierung außerhalb der Domäne zu erzielen. Alle GTR-Modelle sind öffentlich unter https://tfhub.dev/google/collections/gtr/1 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp