HyperAIHyperAI
vor einem Monat

Schlussfolgern oder Merken? Zuverlässige Ergebnisse des Reinforcement Learnings aufgrund von Datenkontamination

Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
Schlussfolgern oder Merken? Zuverlässige Ergebnisse des Reinforcement Learnings
aufgrund von Datenkontamination
Abstract

Die Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des Schließens sind seit langem ein Forschungsschwerpunkt. Kürzliche Arbeiten haben diese Fähigkeiten durch das Verstärkungslernen (RL) weiter verbessert, wobei viele neue Methoden erhebliche Fortschritte mit minimaler oder keiner externen Überwachung beanspruchen. Überraschenderweise deuten einige Studien sogar darauf hin, dass zufällige oder fehlerhafte Belohnungssignale die Leistungsfähigkeit im Schließen verbessern können. Diese Durchbrüche werden jedoch hauptsächlich anhand der Modellfamilie Qwen2.5 und auf bekannten Benchmarks wie MATH-500, AMC und AIME berichtet, während sie bei anderen Modellen wie Llama ähnliche Verbesserungen nicht erreichen, was weitere Untersuchungen rechtfertigt. Unsere Analyse zeigt, dass obwohl Qwen2.5 starke mathematische Schließleistungen erzielt, seine Vortraining anhand umfangreicher Webkorpora es anfällig für Datenkontamination in gängigen Benchmarks macht. Daher können die daraus abgeleiteten Ergebnisse unzuverlässig sein. Um dies zu beheben, stellen wir einen Generator vor, der vollständig synthetische arithmetische Probleme beliebiger Länge und Schwierigkeit erzeugt, was uns zu einem sauberen Datensatz namens RandomCalculation führt. Mit diesen datenlecksfreien Datensätzen zeigen wir, dass nur genaue Belohnungssignale die Leistung konsistent verbessern, während störende oder fehlerhafte Signale dies nicht tun. Wir plädieren dafür, RL-Methoden auf unbehafteten Benchmarks und über verschiedene Modellfamilien hinweg zu evaluieren, um vertrauenswürdige Schlussfolgerungen zu gewährleisten.

Schlussfolgern oder Merken? Zuverlässige Ergebnisse des Reinforcement Learnings aufgrund von Datenkontamination | Neueste Forschungsarbeiten | HyperAI