HyperAIHyperAI

Command Palette

Search for a command to run...

vor 16 Tagen

Die Wiederverwendung von Vortrainingsdaten zur Testzeit wirkt sich wie ein Rechenverstärker aus

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

Die Wiederverwendung von Vortrainingsdaten zur Testzeit wirkt sich wie ein Rechenverstärker aus

Abstract

Große Sprachmodelle lernen aus ihren umfangreichen Vortrainingskorpora und erwerben dadurch die Fähigkeit, eine stetig wachsende Vielfalt an Aufgaben zu lösen. Trotz der kontinuierlichen Bemühungen von Forschern, diese Datensätze zu verbessern, gibt es nur wenige Anstrengungen, um zu verstehen, wie effizient das Vortrainingsverfahren dabei ist, Ideen und Wissen aus den Daten zu extrahieren. In dieser Arbeit nutzen wir die retrievalverstärkte Generierung zusammen mit Rechenleistung zur Testzeit, um quantitativ zu erfassen, wie viel Wert aus den Datensätzen beim Vortraining verloren geht und wie sich dies mit steigender Modellgröße verändert. Wir zeigen, dass das Vortraining gefolgt von der Nachschlagung in Standard- und weitgehend öffentlich zugänglichen Datensätzen zu erheblichen Genauigkeitssteigerungen bei MMLU, Math-500 und SimpleQA führt, die auch nach einer Entkontamination erhalten bleiben. Bei MMLU beobachten wir, dass die Nachschlagung eine Effektivität von etwa fünffacher Rechenleistung im Vergleich zum Vortraining allein darstellt. Zudem zeigen wir, dass diese Ergebnisse durch zusätzliche Rechenleistung zur Testzeit verbessert werden können, indem die abgerufenen Kontexte besser verarbeitet werden – dies führt zu einer Verbesserung um 10 Prozentpunkte bei MMLU für das öffentliche LLaMA 3.1 8B-Modell. Insgesamt deuten unsere Ergebnisse darauf hin, dass die heutigen Vortrainingsmethoden das in bestehenden Vortrainingsdatensätzen enthaltene Wissen nicht vollständig ausnutzen und somit erhebliches Verbesserungspotenzial besteht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Wiederverwendung von Vortrainingsdaten zur Testzeit wirkt sich wie ein Rechenverstärker aus | Forschungsarbeiten | HyperAI