HyperAIHyperAI

Command Palette

Search for a command to run...

ScaleCap: Skalierbare Bildunterschriftgenerierung zur Inferenzzeit durch Duales Modalitätsdebiasing

Zusammenfassung

Dieses Papier stellt ScaleCap vor, eine inferenzzeitlich skalierbare Strategie zur Bildunterschriftenerstellung, die umfassende und detaillierte Bildunterschriften generiert. Die wesentlichen Herausforderungen bei der Erstellung hochwertiger Bildunterschriften liegen in den inhärenten Verzerrungen von LVLMs (Large Visual Language Models): Multimodale Verzerrung führt zu einem ungleichmäßigen Beschreibungsgrad, indem sie einige Elemente detailliert beschreibt, während andere nur flüchtig erwähnt werden; linguistische Verzerrung verursacht halluzinierte Beschreibungen nicht existierender Objekte.Um diese Probleme anzugehen, schlagen wir eine skalierbare Entverzerrungsstrategie für Bildunterschriften vor, die mit erhöhtem Inferenzbudget kontinuierlich die Untertitelfülle anreichert und kalibriert. Insbesondere schlagen wir zwei neuartige Komponenten vor: heuristisches Frage-Antwort-System und kontrastives Satzbewertungssystem. Das erste generiert auf Inhaltsaspekte abgestimmte Fragen basierend auf dem Bild und beantwortet sie, um relevante Informationen schrittweise in die Bildunterschrift einzubringen. Das zweite nutzt satzbezogenes Offline-Kontrastdecodieren, um effektiv Halluzinationen zu identifizieren und zu beseitigen, die durch linguistische Verzerrungen entstehen.Mit steigenden Inferenzkosten erzeugt ScaleCap mehr heuristische Fragen, um schrittweise zusätzliche visuelle Details zu erfassen und so genaue, ausgewogene und informative Bildunterschriften zu generieren. Umfangreiche Experimente zur Modalitätsausrichtung zeigen die Effektivität von ScaleCap. Die Annotation von 450.000 Bildern mit ScaleCap und ihre Nutzung für das Vorabtraining von LVLMs führt zu konsistenten Leistungssteigerungen in elf weit verbreiteten Benchmarks. Darüber hinaus zeigt ScaleCap in zwei zusätzlichen Aufgaben ausgezeichnete Reichhaltigkeit und Genauigkeit der generierten Bildunterschriften: dem Ersatz von Bildern durch Untertitel im VQA-Aufgabe (Visual Question Answering) sowie der Rekonstruktion von Bildern aus Untertiteln zur Bewertung des semantischen Umfangs.Der Quellcode ist unter https://github.com/Cooperx521/ScaleCap verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp