HyperAI
vor 7 Tagen

Kann ein Bereich andere unterstützen? Eine datenorientierte Studie zum Multi-Domain-Reasoning durch Verstärkendes Lernen

Yu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu
Kann ein Bereich andere unterstützen? Eine datenorientierte Studie zum Multi-Domain-Reasoning durch Verstärkendes Lernen
Abstract

Verifiable Rewards in der Verstärkungslernen (RLVR) ist zu einem leistungsstarken Paradigma für die Verbesserung der Schlussfolgerungsfähigkeiten von LLMs (Large Language Models) geworden. Die bisherige Forschung hat sich vorwiegend auf isolierte Schlussfolgerungsbereiche wie mathematische Problemlösung, Codegenerierung oder logisches Rätsellösen konzentriert. In der realen Welt erfordern jedoch Schlussfolgerungsszenarien eine integrierte Anwendung mehrerer kognitiver Fähigkeiten. Trotz dieser Tatsache bleibt das Zusammenspiel dieser Schlussfolgerungsfähigkeiten im Rahmen des Verstärkungslernens schlecht verstanden. Um diese Lücke zu schließen, präsentieren wir eine systematische Untersuchung der Mehrdomänen-Schlussfolgerung innerhalb des RLVR-Frameworks und legen dabei den Fokus auf drei Hauptdomänen: mathematische Schlussfolgerung, Codegenerierung und logisches Rätsellösen. Unsere umfassende Studie besteht aus vier Schlüsselkomponenten: (1) Mit dem GRPO-Algorithmus und der Qwen-2.5-7B-Modellfamilie untersuchen wir umfassend die Verbesserungen innerhalb der Domäne sowie die Fähigkeit zur Übertragung auf andere Domänen, wenn Modelle auf einseitigen Datensätzen trainiert werden. (2) Darüber hinaus analysieren wir die komplexen Wechselwirkungen, einschließlich gegenseitiger Verbesserungen und Konflikte, die während der kombinierten Mehrdomänen-Trainings entstehen. (3) Um die Auswirkungen von SFT (Supervised Fine-Tuning) auf RL besser zu verstehen, vergleichen wir zudem die Leistungsunterschiede zwischen Basismodellen und Instruct-Modellen unter gleichen RL-Konfigurationen. (4) Zudem untersuchen wir kritische Aspekte des RL-Trainings und analysieren systematisch den Einfluss von Curriculum-Learning-Strategien, Variationen im Reward-Design und sprachspezifischen Faktoren. Durch umfangreiche Experimente liefern unsere Ergebnisse wichtige Erkenntnisse über die Dynamik, die die Wechselwirkung zwischen Domänen bestimmt, und enthüllen Schlüsselmerkmale, die sowohl die spezialisierte als auch die übertragbare Schlussfolgerungsfähigkeit beeinflussen. Diese Ergebnisse bieten wertvolle Anhaltspunkte für die Optimierung von RL-Methoden, um umfassende, mehrdomänenfähige Schlussfolgerungsfähigkeiten in LLMs zu fördern.