HyperAIHyperAI

Command Palette

Search for a command to run...

vor 8 Tagen

RewardMap: Bewältigung spärlicher Belohnungen bei feinabgestufter visueller Schlussfolgerung mittels mehrstufiger Verstärkungslernverfahren

Sicheng Feng Kaiwen Tuo Song Wang Lingdong Kong Jianke Zhu Huan Wang

RewardMap: Bewältigung spärlicher Belohnungen bei feinabgestufter visueller Schlussfolgerung mittels mehrstufiger Verstärkungslernverfahren

Abstract

Feinabgestimmtes visuelles Schließen bleibt eine zentrale Herausforderung für multimodale große Sprachmodelle (MLLMs). Die kürzlich vorgestellte ReasonMap verdeutlicht diese Lücke, indem sie zeigt, dass selbst fortgeschrittene MLLMs Schwierigkeiten mit räumlichem Schließen in strukturierten und informationsreichen Umgebungen wie U-Bahn- oder Verkehrsplänen haben – eine Aufgabe, die sowohl praktische als auch wissenschaftliche Relevanz besitzt. Standardmäßige Verstärkendes Lernen (Reinforcement Learning, RL) auf solchen Aufgaben wird jedoch durch spärliche Belohnungen und instabile Optimierung behindert. Um dies zu beheben, konstruieren wir zunächst ReasonMap-Plus, eine erweiterte Datensammlung, die durch Visual Question Answering (VQA)-Aufgaben dichte Belohnungssignale einführt und somit eine effektive Cold-Start-Trainingsstrategie für feinabgestimmte visuelle Verständnisfähigkeiten ermöglicht. Anschließend stellen wir RewardMap vor, einen mehrstufigen RL-Framework, der sowohl die visuelle Wahrnehmung als auch die Schlussfolgerungsfähigkeiten von MLLMs verbessert. RewardMap integriert zwei zentrale Entwürfe: Erstens führen wir eine schwierigkeitsbewusste Belohnungsstruktur ein, die Detailbelohnungen beinhaltet und somit die Spärlichkeit der Belohnungen direkt angeht, während gleichzeitig eine reichhaltigere Überwachung bereitgestellt wird. Zweitens schlagen wir ein mehrstufiges RL-Schema vor, das das Training von einfachen Wahrnehmungsaufgaben über komplexe Schlussfolgerungsaufgaben hinweg schrittweise aufbaut und somit eine effektivere Cold-Start-Strategie darstellt als herkömmliche Supervised Fine-Tuning (SFT)-Ansätze. Experimente auf ReasonMap und ReasonMap-Plus zeigen, dass jedes einzelne Element von RewardMap zu konsistenten Leistungssteigerungen beiträgt, wobei die Kombination aller Komponenten die besten Ergebnisse erzielt. Darüber hinaus erreichen Modelle, die mit RewardMap trainiert wurden, im Durchschnitt eine Verbesserung um 3,47 % über sechs Benchmarks hinweg, die räumliches Schließen, feinabgestimmtes visuelles Schließen sowie allgemeine Aufgaben jenseits von Verkehrsplänen abdecken, was die gesteigerten Fähigkeiten im visuellen Verständnis und Schlussfolgern unterstreicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RewardMap: Bewältigung spärlicher Belohnungen bei feinabgestufter visueller Schlussfolgerung mittels mehrstufiger Verstärkungslernverfahren | Forschungsarbeiten | HyperAI