Test-Time Training auf nächsten Nachbarn für große Sprachmodelle

Viele aktuelle Ansätze erweitern Sprachmodelle durch Retrieval, indem abgerufene Daten in den Eingabekontext integriert werden. Für den Erfolg dieses Ansatzes müssen die abgerufenen Daten sowohl während des Trainings als auch zur Testzeit hinzugefügt werden. Zudem wächst die Rechen- und Speicherkosten quadratisch bei modernen Transformers, da die Eingabedatenlänge linear mit der Größe der abgerufenen Daten ansteigt. Um diese Komplikationen zu vermeiden, feintunen wir das Modell einfach zur Testzeit auf den abgerufenen Daten, wobei wir die übliche Trainingskonfiguration verwenden. Wir erstellen einen großskaligen verteilten Index basierend auf Text-Embeddings des Pile-Datensatzes. Für jede Testeingabe sucht unser System deren Nachbarn und feintunt das Modell auf deren Text. Überraschenderweise führt die Abfrage und das Feintunen auf lediglich 20 Nachbarn, jeweils für nur eine Gradienteniteration, zu einer erheblichen Leistungssteigerung bei mehr als 20 Sprachmodellierungsaufgaben im Pile. Beispielsweise verringert das Testzeit-Feintunen mit den nächsten Nachbarn die Leistungsunterschiede zwischen einem kleinen GPT-2-Modell und einem GPT-Neo-Modell, das mehr als zehnmal größer ist, deutlich. Eine ausreichende Qualität und Größe des Indexes sind jedoch notwendig. Unser Werk legt eine erste Grundlage für das Testzeit-Feintunen in der Sprachmodellierung fest.