HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

R-4B: Anreizung einer allgemeinen Auto-Denkfähigkeit in MLLMs durch zweistufige Annealing- und Verstärkungslernverfahren

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

R-4B: Anreizung einer allgemeinen Auto-Denkfähigkeit in MLLMs durch zweistufige Annealing- und Verstärkungslernverfahren

Abstract

Multimodale große Sprachmodelle (MLLMs), die über Fähigkeiten zum schrittweisen Denken verfügen, haben bei komplexen Schlussfolgerungsproblemen bemerkenswerte Leistungen erbracht. Allerdings ist dieser Denkprozess für einfache Probleme, die ohne komplexe Schlussfolgerung lösbar sind, überflüssig. Um diese Ineffizienz zu beheben, schlagen wir R-4B vor – ein auto-denkendes MLLM, das adaptiv entscheiden kann, wann es den Denkprozess aktivieren sollte, abhängig von der Komplexität des Problems. Der zentrale Ansatz von R-4B besteht darin, dem Modell mithilfe eines bi-modalen Annealing-Ansatzes sowohl Denkfähigkeiten als auch die Fähigkeit, ohne Denkprozess zu arbeiten, zu verleihen, und die Bi-Modus-Policy-Optimierung (BPO) einzusetzen, um die Genauigkeit des Modells bei der Entscheidung, ob der Denkprozess aktiviert werden soll, zu verbessern. Konkret trainieren wir das Modell zunächst auf einem sorgfältig zusammengestellten Datensatz, der Themen aus verschiedenen Bereichen abdeckt und sowohl Beispiele aus dem Denk- als auch aus dem Nicht-Denk-Modus enthält. Anschließend durchläuft das Modell eine zweite Trainingsphase innerhalb eines verbesserten GRPO-Rahmens, bei dem das Policy-Modell gezwungen wird, für jede Eingabefrage Antworten aus beiden Modi zu generieren. Experimentelle Ergebnisse zeigen, dass R-4B state-of-the-art-Leistungen auf 25 anspruchsvollen Benchmarks erzielt. Es übertrifft Qwen2.5-VL-7B in den meisten Aufgaben und erreicht auf reasoning-intensiven Benchmarks eine Leistung, die vergleichbar ist mit größeren Modellen wie Kimi-VL-A3B-Thinking-2506 (16B), jedoch mit geringerem Rechenaufwand.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp