vor 17 Tagen

Kein Parameter zurückgelassen: Wie Distillation und Modellgröße die Zero-Shot-Abfrage beeinflussen

Guilherme Moraes Rosa, Luiz Bonifacio, Vitor Jeronymo, Hugo Abonizio, Marzieh Fadaee, Roberto Lotufo, Rodrigo Nogueira

Abstract

Kürzliche Arbeiten haben gezeigt, dass kleine, distillierte Sprachmodelle in einer Vielzahl von Informationssuche-Aufgaben starke Konkurrenten zu Modellen darstellen, die um Größenordnungen größer und langsamer sind. Aufgrund von Latenzbeschränkungen sind distillierte und dichte Modelle daher zur Standardwahl für den Einsatz in realen Retrieval-Anwendungen geworden. In dieser Arbeit stellen wir diese Praxis in Frage, indem wir zeigen, dass die Anzahl der Parameter sowie frühe Interaktionen zwischen Anfrage und Dokument eine entscheidende Rolle für die Generalisierungsfähigkeit von Retrieval-Modellen spielen. Unsere Experimente zeigen, dass eine Vergrößerung des Modells nur geringfügige Verbesserungen auf In-Domain-Testsets bringt, jedoch deutlich größere Gewinne in neuen, während der Feinabstimmung nie gesehenen Domänen erzielt. Darüber hinaus zeigen wir, dass Reranker in mehreren Aufgaben deutlich besser abschneiden als dichte Modelle ähnlicher Größe. Unser größter Reranker erreicht den Stand der Technik in 12 von 18 Datensätzen des Benchmark-IR (BEIR) und übertrifft die vorherige State-of-the-Art-Leistung um durchschnittlich 3 Punkte. Schließlich bestätigen wir, dass die Wirksamkeit innerhalb der Domäne kein guter Indikator für die Zero-Shot-Wirksamkeit ist. Der Quellcode ist unter https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git verfügbar.