Schrittweise Hinweise auf mehreren Ebenen verbessern das Reinforcement Learning zur Schlussfolgerung

Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) ist ein vielversprechender Ansatz zur Verbesserung der komplexen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs). Aktuelle RLVR-Methoden stehen jedoch vor zwei wesentlichen Herausforderungen: dem Problem der fast getroffenen Belohnungen, bei dem ein kleiner Fehler einen ansonsten korrekten Schlussfolgerungsprozess ungültig machen kann und die Trainings-effizienz erheblich beeinträchtigt; sowie der Explorationsstagnation, bei der Modelle dazu neigen, sich auf Lösungen in ihrem „Komfortbereich“ zu konzentrieren und das Motiv fehlt, potentiell effektivere Alternativen zu erkunden. Um diesen Herausforderungen entgegenzuwirken, schlagen wir StepHint vor, einen neuen RLVR-Algorithmus, der mehrstufige schrittweise Hinweise verwendet, um den Modellen eine effektivere Erkundung des Lösungsraums zu ermöglichen. StepHint generiert gültige Schlussfolgerungsketten von stärkeren Modellen und unterteilt diese Ketten in Schlussfolgerungsschritte mithilfe unserer vorgeschlagenen adaptiven Partitionierungsmethode. Die ersten wenigen Schritte werden als Hinweise verwendet, während gleichzeitig mehrstufige Hinweise (jeder mit einer unterschiedlichen Anzahl von Schritten) dem Modell zur Verfügung gestellt werden. Dieser Ansatz lenkt die Exploration des Modells in Richtung eines vielversprechenden Teilraums von Lösungen und behält dabei dessen Flexibilität für unabhängige Exploration. Durch die Bereitstellung von Hinweisen mindert StepHint das Problem der fast getroffenen Belohnungen und verbessert somit die Trainings-effizienz. Zudem helfen die externen Schlussfolgerungspfade dem Modell, bessere Schlussfolgerungsfähigkeiten zu entwickeln, was es ermöglicht, seinen „Komfortbereich“ zu überwinden und die Explorationsstagnation abzumildern. StepHint übertrifft wettbewerbsfähige RLVR-Verbesserungsverfahren in sechs mathematischen Benchmarks und zeigt zudem eine überlegene Generalisierungsfähigkeit sowie hervorragende Ergebnisse in Benchmarks außerhalb des ursprünglichen Domains.