HyperAI

Große Sprachmodelle lernen aus ihren umfangreichen Vortrainingskorpora und erwerben dadurch die Fähigkeit, eine stetig wachsende Vielfalt an Aufgaben zu lösen. Trotz der kontinuierlichen Bemühungen von Forschern, diese Datensätze zu verbessern, gibt es nur wenige Anstrengungen, um zu verstehen, wie effizient das Vortrainingsverfahren dabei ist, Ideen und Wissen aus den Daten zu extrahieren. In dieser Arbeit nutzen wir die retrievalverstärkte Generierung zusammen mit Rechenleistung zur Testzeit, um quantitativ zu erfassen, wie viel Wert aus den Datensätzen beim Vortraining verloren geht und wie sich dies mit steigender Modellgröße verändert. Wir zeigen, dass das Vortraining gefolgt von der Nachschlagung in Standard- und weitgehend öffentlich zugänglichen Datensätzen zu erheblichen Genauigkeitssteigerungen bei MMLU, Math-500 und SimpleQA führt, die auch nach einer Entkontamination erhalten bleiben. Bei MMLU beobachten wir, dass die Nachschlagung eine Effektivität von etwa fünffacher Rechenleistung im Vergleich zum Vortraining allein darstellt. Zudem zeigen wir, dass diese Ergebnisse durch zusätzliche Rechenleistung zur Testzeit verbessert werden können, indem die abgerufenen Kontexte besser verarbeitet werden – dies führt zu einer Verbesserung um 10 Prozentpunkte bei MMLU für das öffentliche LLaMA 3.1 8B-Modell. Insgesamt deuten unsere Ergebnisse darauf hin, dass die heutigen Vortrainingsmethoden das in bestehenden Vortrainingsdatensätzen enthaltene Wissen nicht vollständig ausnutzen und somit erhebliches Verbesserungspotenzial besteht.

Die Wiederverwendung von Vortrainingsdaten zur Testzeit wirkt sich wie ein Rechenverstärker aus

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Die Wiederverwendung von Vortrainingsdaten zur Testzeit wirkt sich wie ein Rechenverstärker aus

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

Abstract

KI mit KI entwickeln

Hyper Newsletters