HyperAIHyperAI

Command Palette

Search for a command to run...

Jenseits des Kompromisses: Selbstüberwachtes Verstärkungslernen für das Anweisungsfolgen von Schlussfolgerungsmodellen

Qingyu Ren Qianyu He Bowei Zhang Jie Zeng Jiaqing Liang Yanghua Xiao Weikang Zhou Zeye Sun Fei Yu

Zusammenfassung

Schlussfolgerungsmodelle zeichnen sich durch herausragende Fähigkeiten bei der Lösung komplexer Probleme aus, weisen jedoch ein besorgniserregendes Kompromissverhältnis zwischen Schlussfolgerungsfähigkeiten und der Fähigkeit zur Befolgung von Anweisungen auf. Bestehende Ansätze zur Verbesserung der Anweisungsbefolgung beruhen auf leistungsstärkeren externen Modellen, was methodische Engpässe sowie praktische Einschränkungen wie erhöhte Kosten und Zugänglichkeitsprobleme verursacht. Wir schlagen einen selbstüberwachten RL-Framework vor, der interne Signale der Schlussfolgerungsmodelle nutzt, um die Fähigkeit zur Anweisungsbefolgung zu verbessern, ohne externe Aufsicht zu benötigen. Umfangreiche Experimente zeigen, dass unser Framework die Fähigkeit zur Anweisungsbefolgung erheblich verbessert, während gleichzeitig die Schlussfolgerungskapazitäten erhalten bleiben. Damit bietet unser Ansatz eine skalierbare und kosteneffiziente Methode zur Verbesserung der Anweisungsbefolgung in Schlussfolgerungsmodellen. Die Daten und der Code sind öffentlich unter https://github.com/Rainier-rq/verl-if verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Jenseits des Kompromisses: Selbstüberwachtes Verstärkungslernen für das Anweisungsfolgen von Schlussfolgerungsmodellen | Paper | HyperAI