Jenseits des Kompromisses: Selbstüberwachtes Verstärkungslernen für das Anweisungsfolgen von Schlussfolgerungsmodellen

Schlussfolgerungsmodelle zeichnen sich durch herausragende Fähigkeiten bei der Lösung komplexer Probleme aus, weisen jedoch ein besorgniserregendes Kompromissverhältnis zwischen Schlussfolgerungsfähigkeiten und der Fähigkeit zur Befolgung von Anweisungen auf. Bestehende Ansätze zur Verbesserung der Anweisungsbefolgung beruhen auf leistungsstärkeren externen Modellen, was methodische Engpässe sowie praktische Einschränkungen wie erhöhte Kosten und Zugänglichkeitsprobleme verursacht. Wir schlagen einen selbstüberwachten RL-Framework vor, der interne Signale der Schlussfolgerungsmodelle nutzt, um die Fähigkeit zur Anweisungsbefolgung zu verbessern, ohne externe Aufsicht zu benötigen. Umfangreiche Experimente zeigen, dass unser Framework die Fähigkeit zur Anweisungsbefolgung erheblich verbessert, während gleichzeitig die Schlussfolgerungskapazitäten erhalten bleiben. Damit bietet unser Ansatz eine skalierbare und kosteneffiziente Methode zur Verbesserung der Anweisungsbefolgung in Schlussfolgerungsmodellen. Die Daten und der Code sind öffentlich unter https://github.com/Rainier-rq/verl-if verfügbar.