HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

GRPO-CARE: Konsistenzbewusstes Reinforcement Learning für multimodales Reasoning

GRPO-CARE: Konsistenzbewusstes Reinforcement Learning für multimodales Reasoning

Abstract

Neuere Ansätze des Reinforcement Learnings, wie das outcome-supervised GRPO, haben die Chain-of-Thought-Entscheidungsfindung in großen Sprachmodellen (LLMs) weiterentwickelt, jedoch ist ihre Anpassung an multimodale LLMs (MLLMs) bisher unerforscht. Um den Mangel an strenger Evaluierung von Post-Training-Methoden für MLLMs zu beheben, stellen wir SEED-Bench-R1 vor, eine Benchmark mit komplexen realweltlichen Videos, die ein ausgewogenes Verständnis von Wahrnehmung und Schlussfolgerung erfordern. Diese Benchmark bietet einen umfangreichen Trainingsdatensatz und bewertet die Generalisierungskapazität in drei aufsteigenden Herausforderungen: innerhalb der Verteilung, über verschiedene Umgebungen hinweg und in verschiedenen Umgebungsaufgaben.Durch die Verwendung von SEED-Bench-R1 feststellen wir, dass das standardmäßige GRPO, obwohl es die Genauigkeit der Antworten verbessert, oft die logische Kohärenz zwischen den Schlussfolgerungsschritten und den Antworten verringert, wobei nur eine Konsistenzrate von 57,9 % erreicht wird. Dies resultiert aus Belohnungssignalen, die sich ausschließlich auf endgültige Antworten konzentrieren und Abkürzungen fördern sowie strenge KL-Strafen, die die Erkundung einschränken. Um dieses Problem zu lösen, schlagen wir GRPO-CARE vor, einen konsistenzbewussten RL-Framework, das sowohl die Richtigkeit der Antworten als auch die Kohärenz der Schlussfolgerungen ohne explizite Überwachung optimiert.GRPO-CARE führt eine zweistufige Belohnung ein: (1) eine Basisbelohnung für die Richtigkeit der Antwort und (2) einen adaptiven Konsistenzbonus, der durch den Vergleich der Wahrscheinlichkeit des Modells zur Schlussfolgerungs-Antwort (mittels eines langsam evolvierenden Referenzmodells) mit Gruppenkollegen berechnet wird. Dieses doppelte Mechanismus verstärkt Belohnungen für Schlussfolgerungspfade, die sowohl korrekt als auch logisch konsistent sind. Durch den Austausch von KL-Strafen gegen diesen adaptiven Bonus übertrifft GRPO-CARE das standardmäßige GRPO bei SEED-Bench-R1 und erzielt eine Leistungsförderung von 6,7 % auf dem schwierigsten Evaluationsniveau sowie eine Verbesserung der Konsistenz um 24,5 %. Es zeigt zudem starke Transferfähigkeiten und verbessert die Modellleistung in verschiedenen Video-Verständnis-Benchmarks.Unsere Arbeit leistet einen Beitrag durch eine systematisch entwickelte Benchmark und ein generalisierbares Post-Training-Framework, was die Entwicklung interpretierbarerer und robusterer MLLMs vorantreibt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GRPO-CARE: Konsistenzbewusstes Reinforcement Learning für multimodales Reasoning | Forschungsarbeiten | HyperAI