HyperAI
vor 4 Tagen

ScaleCap: Skalierbare Bildunterschriftgenerierung zur Inferenzzeit durch Duales Modalitätsdebiasing

Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
ScaleCap: Skalierbare Bildunterschriftgenerierung zur Inferenzzeit durch Duales Modalitätsdebiasing
Abstract

Dieses Papier stellt ScaleCap vor, eine inferenzzeitlich skalierbare Strategie zur Bildunterschriftenerstellung, die umfassende und detaillierte Bildunterschriften generiert. Die wesentlichen Herausforderungen bei der Erstellung hochwertiger Bildunterschriften liegen in den inhärenten Verzerrungen von LVLMs (Large Visual Language Models): Multimodale Verzerrung führt zu einem ungleichmäßigen Beschreibungsgrad, indem sie einige Elemente detailliert beschreibt, während andere nur flüchtig erwähnt werden; linguistische Verzerrung verursacht halluzinierte Beschreibungen nicht existierender Objekte.Um diese Probleme anzugehen, schlagen wir eine skalierbare Entverzerrungsstrategie für Bildunterschriften vor, die mit erhöhtem Inferenzbudget kontinuierlich die Untertitelfülle anreichert und kalibriert. Insbesondere schlagen wir zwei neuartige Komponenten vor: heuristisches Frage-Antwort-System und kontrastives Satzbewertungssystem. Das erste generiert auf Inhaltsaspekte abgestimmte Fragen basierend auf dem Bild und beantwortet sie, um relevante Informationen schrittweise in die Bildunterschrift einzubringen. Das zweite nutzt satzbezogenes Offline-Kontrastdecodieren, um effektiv Halluzinationen zu identifizieren und zu beseitigen, die durch linguistische Verzerrungen entstehen.Mit steigenden Inferenzkosten erzeugt ScaleCap mehr heuristische Fragen, um schrittweise zusätzliche visuelle Details zu erfassen und so genaue, ausgewogene und informative Bildunterschriften zu generieren. Umfangreiche Experimente zur Modalitätsausrichtung zeigen die Effektivität von ScaleCap. Die Annotation von 450.000 Bildern mit ScaleCap und ihre Nutzung für das Vorabtraining von LVLMs führt zu konsistenten Leistungssteigerungen in elf weit verbreiteten Benchmarks. Darüber hinaus zeigt ScaleCap in zwei zusätzlichen Aufgaben ausgezeichnete Reichhaltigkeit und Genauigkeit der generierten Bildunterschriften: dem Ersatz von Bildern durch Untertitel im VQA-Aufgabe (Visual Question Answering) sowie der Rekonstruktion von Bildern aus Untertiteln zur Bewertung des semantischen Umfangs.Der Quellcode ist unter https://github.com/Cooperx521/ScaleCap verfügbar.