Command Palette
Search for a command to run...
GRPO-CARE: Konsistenzbewusstes Reinforcement Learning für multimodales Reasoning

Abstract
Neuere Ansätze des Reinforcement Learnings, wie das outcome-supervised GRPO, haben die Chain-of-Thought-Entscheidungsfindung in großen Sprachmodellen (LLMs) weiterentwickelt, jedoch ist ihre Anpassung an multimodale LLMs (MLLMs) bisher unerforscht. Um den Mangel an strenger Evaluierung von Post-Training-Methoden für MLLMs zu beheben, stellen wir SEED-Bench-R1 vor, eine Benchmark mit komplexen realweltlichen Videos, die ein ausgewogenes Verständnis von Wahrnehmung und Schlussfolgerung erfordern. Diese Benchmark bietet einen umfangreichen Trainingsdatensatz und bewertet die Generalisierungskapazität in drei aufsteigenden Herausforderungen: innerhalb der Verteilung, über verschiedene Umgebungen hinweg und in verschiedenen Umgebungsaufgaben.Durch die Verwendung von SEED-Bench-R1 feststellen wir, dass das standardmäßige GRPO, obwohl es die Genauigkeit der Antworten verbessert, oft die logische Kohärenz zwischen den Schlussfolgerungsschritten und den Antworten verringert, wobei nur eine Konsistenzrate von 57,9 % erreicht wird. Dies resultiert aus Belohnungssignalen, die sich ausschließlich auf endgültige Antworten konzentrieren und Abkürzungen fördern sowie strenge KL-Strafen, die die Erkundung einschränken. Um dieses Problem zu lösen, schlagen wir GRPO-CARE vor, einen konsistenzbewussten RL-Framework, das sowohl die Richtigkeit der Antworten als auch die Kohärenz der Schlussfolgerungen ohne explizite Überwachung optimiert.GRPO-CARE führt eine zweistufige Belohnung ein: (1) eine Basisbelohnung für die Richtigkeit der Antwort und (2) einen adaptiven Konsistenzbonus, der durch den Vergleich der Wahrscheinlichkeit des Modells zur Schlussfolgerungs-Antwort (mittels eines langsam evolvierenden Referenzmodells) mit Gruppenkollegen berechnet wird. Dieses doppelte Mechanismus verstärkt Belohnungen für Schlussfolgerungspfade, die sowohl korrekt als auch logisch konsistent sind. Durch den Austausch von KL-Strafen gegen diesen adaptiven Bonus übertrifft GRPO-CARE das standardmäßige GRPO bei SEED-Bench-R1 und erzielt eine Leistungsförderung von 6,7 % auf dem schwierigsten Evaluationsniveau sowie eine Verbesserung der Konsistenz um 24,5 %. Es zeigt zudem starke Transferfähigkeiten und verbessert die Modellleistung in verschiedenen Video-Verständnis-Benchmarks.Unsere Arbeit leistet einen Beitrag durch eine systematisch entwickelte Benchmark und ein generalisierbares Post-Training-Framework, was die Entwicklung interpretierbarerer und robusterer MLLMs vorantreibt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.