vor 5 Monaten

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs), die über Fähigkeiten zum schrittweisen Denken verfügen, haben bei komplexen Schlussfolgerungsproblemen bemerkenswerte Leistungen erbracht. Allerdings ist dieser Denkprozess für einfache Probleme, die ohne komplexe Schlussfolgerung lösbar sind, überflüssig. Um diese Ineffizienz zu beheben, schlagen wir R-4B vor – ein auto-denkendes MLLM, das adaptiv entscheiden kann, wann es den Denkprozess aktivieren sollte, abhängig von der Komplexität des Problems. Der zentrale Ansatz von R-4B besteht darin, dem Modell mithilfe eines bi-modalen Annealing-Ansatzes sowohl Denkfähigkeiten als auch die Fähigkeit, ohne Denkprozess zu arbeiten, zu verleihen, und die Bi-Modus-Policy-Optimierung (BPO) einzusetzen, um die Genauigkeit des Modells bei der Entscheidung, ob der Denkprozess aktiviert werden soll, zu verbessern. Konkret trainieren wir das Modell zunächst auf einem sorgfältig zusammengestellten Datensatz, der Themen aus verschiedenen Bereichen abdeckt und sowohl Beispiele aus dem Denk- als auch aus dem Nicht-Denk-Modus enthält. Anschließend durchläuft das Modell eine zweite Trainingsphase innerhalb eines verbesserten GRPO-Rahmens, bei dem das Policy-Modell gezwungen wird, für jede Eingabefrage Antworten aus beiden Modi zu generieren. Experimentelle Ergebnisse zeigen, dass R-4B state-of-the-art-Leistungen auf 25 anspruchsvollen Benchmarks erzielt. Es übertrifft Qwen2.5-VL-7B in den meisten Aufgaben und erreicht auf reasoning-intensiven Benchmarks eine Leistung, die vergleichbar ist mit größeren Modellen wie Kimi-VL-A3B-Thinking-2506 (16B), jedoch mit geringerem Rechenaufwand.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

R-4B: Anreizung einer allgemeinen Auto-Denkfähigkeit in MLLMs durch zweistufige Annealing- und Verstärkungslernverfahren

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

R-4B: Anreizung einer allgemeinen Auto-Denkfähigkeit in MLLMs durch zweistufige Annealing- und Verstärkungslernverfahren

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

R-4B: Anreizung einer allgemeinen Auto-Denkfähigkeit in MLLMs durch zweistufige Annealing- und Verstärkungslernverfahren

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters