Command Palette
Search for a command to run...
Gewinnen des Beschneidungsspiels: Ein einheitlicher Ansatz für die gemeinsame Proben- und Token-Beschneidung zur effizienten überwachten Feinabstimmung

Abstract
Mit der Weiterentwicklung von Supervised Fine-Tuning (SFT) von einer leichtgewichtigen Nachtrainingsphase hin zu einer rechenintensiven Phase, die in ihrer Skalierung mittleren Trainingsphasen nahekommt, ist die Dateneffizienz entscheidend geworden, um große Sprachmodelle (LLMs) unter strengen Budgets effektiv auszurichten. Bestehende Methoden zur Datenauswahl leiden unter einer fragmentierten Architektur: Sie operieren entweder isoliert auf der Ebene der Beispiele oder der Tokens und optimieren beide Dimensionen nicht gemeinsam. Diese Trennung führt zu erheblichen Effizienzverlusten – hochwertige Beispiele können weiterhin überflüssige Tokens enthalten, während die Token-basierte Pruning-Methode oft entscheidende instruktive oder korrigierende Signale, die in einzelnen Beispielen verankert sind, unnotwendig entfernt. Um diesen Engpass zu überwinden, führen wir die Error-Uncertainty (EU)-Ebene ein, einen diagnostischen Rahmen, der die heterogene Nutzbarkeit von Trainingsdaten sowohl auf Beispiels- als auch auf Token-Ebene gemeinsam charakterisiert. Auf Basis dieses Einblicks entwickeln wir Q-Tuning, einen einheitlichen Rahmen, der die strategische Koordination von Beispiel- und Token-Pruning ermöglicht. Q-Tuning verfolgt eine zweistufige Strategie: Zunächst erfolgt eine Beispielebene-Triage, bei der nur Beispiele mit informativen Fehlinterpretationen oder Kalibrationsignalen beibehalten werden; anschließend wird eine asymmetrische Token-Pruning-Strategie angewandt, bei der mithilfe eines kontextbewussten Bewertungsmechanismus weniger signifikante Tokens ausschließlich aus Fehlinterpretationsbeispielen entfernt, während Kalibrationsbeispiele vollständig erhalten bleiben. Unser Ansatz erreicht eine neue State-of-the-Art-Leistung auf fünf unterschiedlichen Benchmarks. Besonders bemerkenswert ist, dass Q-Tuning auf SmolLM2-1.7B im Vergleich zur vollständigen Daten-SFT-Benchmark eine durchschnittliche Verbesserung um +38 % erzielt, wobei nur 12,5 % der ursprünglichen Trainingsdaten verwendet werden. Als erster dynamischer Pruning-Ansatz, der konsistent die Leistung von vollständigen Datensätzen übertrifft, bietet Q-Tuning einen praktikablen und skalierbaren Leitfaden zur Maximierung der Datennutzung bei budgetbeschränkten SFT-Prozessen für große Sprachmodelle.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.