HyperAIHyperAI

Command Palette

Search for a command to run...

Kein Parameter zurückgelassen: Wie Distillation und Modellgröße die Zero-Shot-Abfrage beeinflussen

Guilherme Moraes Rosa Luiz Bonifacio Vitor Jeronymo Hugo Abonizio Marzieh Fadaee Roberto Lotufo Rodrigo Nogueira

Zusammenfassung

Kürzliche Arbeiten haben gezeigt, dass kleine, distillierte Sprachmodelle in einer Vielzahl von Informationssuche-Aufgaben starke Konkurrenten zu Modellen darstellen, die um Größenordnungen größer und langsamer sind. Aufgrund von Latenzbeschränkungen sind distillierte und dichte Modelle daher zur Standardwahl für den Einsatz in realen Retrieval-Anwendungen geworden. In dieser Arbeit stellen wir diese Praxis in Frage, indem wir zeigen, dass die Anzahl der Parameter sowie frühe Interaktionen zwischen Anfrage und Dokument eine entscheidende Rolle für die Generalisierungsfähigkeit von Retrieval-Modellen spielen. Unsere Experimente zeigen, dass eine Vergrößerung des Modells nur geringfügige Verbesserungen auf In-Domain-Testsets bringt, jedoch deutlich größere Gewinne in neuen, während der Feinabstimmung nie gesehenen Domänen erzielt. Darüber hinaus zeigen wir, dass Reranker in mehreren Aufgaben deutlich besser abschneiden als dichte Modelle ähnlicher Größe. Unser größter Reranker erreicht den Stand der Technik in 12 von 18 Datensätzen des Benchmark-IR (BEIR) und übertrifft die vorherige State-of-the-Art-Leistung um durchschnittlich 3 Punkte. Schließlich bestätigen wir, dass die Wirksamkeit innerhalb der Domäne kein guter Indikator für die Zero-Shot-Wirksamkeit ist. Der Quellcode ist unter https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kein Parameter zurückgelassen: Wie Distillation und Modellgröße die Zero-Shot-Abfrage beeinflussen | Paper | HyperAI