HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 5 Tagen

Von Nachahmung zur Unterscheidung: Ein allgemeinerer Curriculum-Vorteilsmechanismus zur Verbesserung von Cross-Domain-Reasoning-Aufgaben

Von Nachahmung zur Unterscheidung: Ein allgemeinerer Curriculum-Vorteilsmechanismus zur Verbesserung von Cross-Domain-Reasoning-Aufgaben

Abstract

Verstärkendes Lernen ist zu einem Paradigma für die Nachtraining großer Sprachmodelle geworden und hat deren Schlussfolgerungsfähigkeiten erheblich verbessert. Solche Ansätze berechnen für jedes Beispiel einen Vorteilswert, der eine bessere oder schlechtere Leistung im Vergleich zu den Erwartungen widerspiegelt, wodurch sowohl positive als auch negative Signale für das Training generiert werden. Die ungezielte Vermischung dieser beiden Signale in bestehenden Methoden, insbesondere bereits in frühen Phasen, kann jedoch zu mehrdeutiger Anleitung und begrenzten Verbesserungen führen. Um dieses Problem anzugehen, schlagen wir CAPO (Curriculum Advantage Policy Optimization) vor – einen adaptiven Curriculum-Mechanismus, der auf Vorteilssignalen basiert. Der vorgeschlagene Mechanismus nutzt positive Vorteilssamples, um eine robuste Grundlage durch Nachahmungslernen aufzubauen, und führt anschließend negative Signale ein, um diskriminative Fähigkeiten zu fördern, wodurch die Generalisierbarkeit in komplexen Szenarien verbessert wird. Unabhängig von verschiedenen Optimierungsverfahren wie GRPO, PPO, RLOO und Reinforce++ erreicht unsere Methode konsistent stabile und signifikante Verbesserungen bei mathematischen Schlussfolgerungsaufgaben und verallgemeinert sich zudem effektiv auf multimodale Graphical User Interface (GUI)-Schlussfolgerungsszenarien, wodurch sie sich als vielseitig und robustes Optimierungsframework etabliert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Von Nachahmung zur Unterscheidung: Ein allgemeinerer Curriculum-Vorteilsmechanismus zur Verbesserung von Cross-Domain-Reasoning-Aufgaben | Forschungsarbeiten | HyperAI