HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Schlussfolgerungsvektoren: Übertragung von Ketten-des-Denkens-Fähigkeiten mittels Aufgabenarithmetik

Mohammad Zbeeb Hasan Abed Al Kader Hammoud Bernard Ghanem

Schlussfolgerungsvektoren: Übertragung von Ketten-des-Denkens-Fähigkeiten mittels Aufgabenarithmetik

Abstract

Große Sprachmodelle erfordern oft kostspielige Optimierungsverfahren, wie beispielsweise Verstärkendes Lernen, um komplexe Schlussfolgerungsaufgaben zu meistern. Diese Arbeit zeigt, dass die Fähigkeit zum Schlussfolgern, einmal erlernt, als kompakter Aufgabenvektor extrahiert und zwischen Modellen übertragen werden kann. Wir nutzen zwei öffentlich verfügbare, identisch initialisierte Qwen2.5-Modelle, wobei eines mittels überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) und das andere mittels Gruppen-basierter relativer Politikoptimierung (Group Relative Policy Optimization, GRPO) auf demselben Datensatz feinabgestimmt wurde. Aus diesen Modellen extrahieren wir einen Schlussfolgerungsvektor:[ v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}}. ]Wir vermuten, dass dieser Vektor die durch Verstärkendes Lernen vermittelte Schlussfolgerungsfähigkeit erfasst, während gemeinsames Wissen aus dem SFT-Prozess herausgefiltert wird. Sobald dieser Vektor durch einfache arithmetische Operationen in kompatible instruktionsfeinabgestimmte Modelle integriert wird, führt er konsistent zu Leistungssteigerungen auf einer Vielzahl von Schlussfolgerungsbewertungsbögen: GSM8K (+4,9 %), HumanEval (+4,3 %), SciQ (+1,7 %) und BigBenchHard (+12,3 % für das 1,5-Billionen-Parameter-Modell). Die Leistungsverbesserungen bleiben auch unter adversariellen Bedingungen erhalten. Umgekehrt führt die Subtraktion des Vektors zu einer erheblichen Leistungseinbuße (-11,8 % bei GSM8K), was die entscheidende Rolle des Vektors für die Schlussfolgerungsfähigkeit des Modells belegt. Diese Studie zeigt auf, wie Schlussfolgerungsfähigkeiten, die normalerweise durch aufwendige Trainingsprozesse erworben werden, aus bereits existierenden Open-Source-Modellen extrahiert und durch einfache Tensor-Arithmetik wiederverwendet werden können. Damit wird ein praktikabler Ansatz vorgestellt, um Modelle durch die Wiederverwendung vorheriger Recheninvestitionen zu verbessern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Schlussfolgerungsvektoren: Übertragung von Ketten-des-Denkens-Fähigkeiten mittels Aufgabenarithmetik | Forschungsarbeiten | HyperAI