HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

CapRL: Anregung dichter Bildbeschreibungsfähigkeiten durch Verstärkungslernen

Long Xing Xiaoyi Dong Yuhang Zang Yuhang Cao Jianze Liang Qidong Huang Jiaqi Wang Feng Wu Dahua Lin

CapRL: Anregung dichter Bildbeschreibungsfähigkeiten durch Verstärkungslernen

Abstract

Die Bildbeschreibung (Image Captioning) ist eine zentrale Aufgabe, die visuelle und sprachliche Domänen verbindet und eine entscheidende Rolle bei der Vortraining von großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLMs) spielt. Moderne state-of-the-art-Modelle zur Bildbeschreibung werden typischerweise mittels überwachtem Feinabstimmen (Supervised Fine-Tuning, SFT) trainiert, einem Ansatz, der auf teure, nicht skalierbare menschliche Annotationen oder proprietäre Modelle angewiesen ist. Dieser Ansatz führt oft dazu, dass die Modelle spezifische Ground-Truth-Antworten auswendig lernen, wodurch ihre Allgemeingültigkeit und Fähigkeit, abwechslungsreiche und kreative Beschreibungen zu generieren, eingeschränkt werden. Um diese Beschränkung von SFT zu überwinden, schlagen wir die Anwendung des Reinforcement-Learning-Paradigmas mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) für die offene Aufgabe der Bildbeschreibung vor. Ein zentrales Hindernis dabei ist die Gestaltung einer objektiven Belohnungsfunktion für die inhärent subjektive Natur einer „guten“ Beschreibung. Wir stellen CapRL (Captioning Reinforcement Learning) vor, einen neuartigen Trainingsansatz, der die Qualität einer Bildbeschreibung neu definiert: Eine hochwertige Beschreibung sollte es einem visuell unabhängigen Sprachmodell ermöglichen, präzise Fragen zum entsprechenden Bild zu beantworten. CapRL nutzt eine entkoppelte zweistufige Pipeline, bei der ein LVLM eine Beschreibung generiert und die objektive Belohnung aus der Genauigkeit eines separaten, visuell unabhängigen Sprachmodells (LLM) zur Beantwortung von Multiple-Choice-Fragen basierend ausschließlich auf dieser Beschreibung abgeleitet wird. Als erste Studie, die RLVR auf die subjektive Aufgabe der Bildbeschreibung anwendet, zeigen wir, dass CapRL in mehreren Szenarien erhebliche Verbesserungen erzielt. Das Vortraining auf dem CapRL-5M-Datensatz, der durch CapRL-3B annotiert wurde, führt zu signifikanten Fortschritten auf 12 Benchmarks. Zudem erreicht CapRL innerhalb des Prism-Frameworks zur Bewertung der Bildbeschreibung eine Leistung, die der von Qwen2.5-VL-72B vergleichbar ist, und übertrifft die Baseline im Durchschnitt um 8,4 %.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CapRL: Anregung dichter Bildbeschreibungsfähigkeiten durch Verstärkungslernen | Forschungsarbeiten | HyperAI