HyperAIHyperAI
vor 17 Tagen

RA-DIT: Retrieval-Augmented Dual Instruction Tuning

Xi Victoria Lin, Xilun Chen, Mingda Chen, Weijia Shi, Maria Lomeli, Rich James, Pedro Rodriguez, Jacob Kahn, Gergely Szilvasy, Mike Lewis, Luke Zettlemoyer, Scott Yih
RA-DIT: Retrieval-Augmented Dual Instruction Tuning
Abstract

Retrieval-augmented language models (RALMs) verbessern die Leistung durch den Zugriff auf Long-tail- und aktuelle Wissensinhalte aus externen Datenspeichern, sind jedoch schwer zu implementieren. Bestehende Ansätze erfordern entweder kostspielige, retrieval-spezifische Anpassungen während der Vortrainierung von Sprachmodellen oder nutzen eine nachträgliche Integration des Datenspeichers, was zu suboptimalen Ergebnissen führt. Wir stellen Retrieval-Augmented Dual Instruction Tuning (RA-DIT) vor, eine leichtgewichtige Feinjustierungsstrategie, die eine dritte Möglichkeit bietet, beliebige LLMs mit Retrieval-Fähigkeiten auszustatten. Unser Ansatz basiert auf zwei klar voneinander getrennten Feinjustierungsschritten: (1) Eine Phase optimiert ein vortrainiertes Sprachmodell dahingehend, dass es die abgerufenen Informationen besser nutzen kann, während (2) die zweite Phase den Retriever so anpasst, dass er relevantere Ergebnisse liefert, wie vom Sprachmodell bevorzugt. Durch die Feinjustierung an Aufgaben, die sowohl Wissensnutzung als auch Kontextbewusstsein erfordern, zeigen wir, dass jeder Schritt erhebliche Leistungssteigerungen erzielt und die Kombination beider Schritte zusätzliche Verbesserungen bringt. Unser bestes Modell, RA-DIT 65B, erreicht state-of-the-art-Ergebnisse auf einer Vielzahl von wissensintensiven Zero- und Few-shot-Lernbenchmarks und übertrifft bestehende in-context RALM-Ansätze im Durchschnitt um bis zu +8,9 % im Zero-shot-Setting und um +1,4 % im 5-shot-Setting signifikant.