HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Selbstbelohnender visuell-sprachlicher Modellierungsansatz durch Reasoning-Dekomposition

Selbstbelohnender visuell-sprachlicher Modellierungsansatz durch Reasoning-Dekomposition

Abstract

Vision-Language-Modelle (VLMs) leiden häufig unter visuellen Halluzinationen, bei denen sie Aussagen treffen, die in der Abbildung tatsächlich nicht enthalten sind, sowie unter sprachlichen Kurzschlüssen, bei denen sie den visuellen Teil umgehen und sich ausschließlich auf textbasierte Vorwissen stützen. Diese Probleme entstehen daraus, dass die meisten nachträglichen Trainingsmethoden für VLMs auf einfacher, überprüfbarer Antwortübereinstimmung basieren und lediglich die endgültigen Ausgaben supervidieren, wodurch der intermediäre visuelle Schlussfolgerungsprozess ohne explizite Anleitung bleibt. Folglich erhalten VLMs spärliche visuelle Signale und neigen dazu, sprachbasierte Schlussfolgerungen visuellen Wahrnehmungsprozessen vorzuziehen. Um dies zu mildern, integrieren einige bestehende Ansätze visuelle Supervision mittels menschlicher Annotationen oder abgeleiteter Labels aus externen großen Modellen. Allerdings sind menschliche Annotationen arbeitsintensiv und kostspielig, und da externe Signale sich nicht an die sich verändernde Modellpolitik anpassen können, führen sie zu Verteilungsverschiebungen, die zu Reward-Hacking führen können. In diesem Paper stellen wir Vision-SR1 vor, eine selbstbelohnende Methode, die die visuelle Schlussfolgerung verbessert, ohne auf externe visuelle Supervision zurückzugreifen, und dies durch Verstärkungslernen erreicht. Vision-SR1 zerlegt den Schlussfolgerungsprozess des VLMs in zwei Stufen: visuelle Wahrnehmung und sprachliche Schlussfolgerung. Zunächst wird das Modell angeregt, selbstständige visuelle Wahrnehmungen zu erzeugen, die ausreichen, um die Frage zu beantworten, ohne auf das Eingabebild zurückgreifen zu müssen. Um die Selbstständigkeit dieser Wahrnehmung zu validieren, wird dasselbe VLM-Modell anschließend erneut promptet, um sprachliche Schlussfolgerungen ausschließlich auf Basis der generierten Wahrnehmung durchzuführen und die Belohnung zu berechnen. Diese selbstgenerierte Belohnung wird mit der Supervision der endgültigen Ausgaben kombiniert und liefert ein ausgewogenes Trainingsignal, das sowohl die visuelle Wahrnehmung als auch die sprachliche Schlussfolgerung stärkt. Unsere Experimente zeigen, dass Vision-SR1 die visuelle Schlussfolgerung verbessert, visuelle Halluzinationen reduziert und die Abhängigkeit von sprachlichen Kurzschlüssen in verschiedenen Vision-Language-Aufgaben verringert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Selbstbelohnender visuell-sprachlicher Modellierungsansatz durch Reasoning-Dekomposition | Forschungsarbeiten | HyperAI