vor 2 Monaten

Affe: Bildauflösung und Textbezeichnung sind wichtige Aspekte für große multimodale Modelle.

Li, Zhang ; Yang, Biao ; Liu, Qiang ; Ma, Zhiyin ; Zhang, Shuo ; Yang, Jingxu ; Sun, Yabo ; Liu, Yuliang ; Bai, Xiang

Abstract

Große multimodale Modelle (LMMs) haben in visuellen und sprachlichen Aufgaben vielversprechende Ergebnisse gezeigt, aber Schwierigkeiten bei der Verarbeitung hochauflösender Eingaben und der detaillierten Szeneanalyse. Um diese Herausforderungen zu bewältigen, stellen wir Monkey vor, um die Fähigkeiten von LMMs zu verbessern.Erstens verarbeitet Monkey Eingabebilder, indem es sie in gleichförmige Patchs unterteilt, wobei jeder Patch die Größe (z.B. 448x448 Pixel) entspricht, die beim ursprünglichen Training des gut ausgebildeten visuellen Encoders verwendet wurde. Durch den Einsatz eines individuellen Adapters für jeden Patch kann Monkey Auflösungen bis zu 1344x896 Pixel verarbeiten und komplexe visuelle Informationen detailliert erfassen.Zweitens nutzt es eine mehrstufige Beschreibungsgenerierungsmethode, um den Kontext für Objekt-Szenen-Assoziationen zu bereichern. Diese zweiteilige Strategie gewährleistet ein effektiveres Lernen aus generierten Daten: Die höhere Auflösung ermöglicht eine detailliertere Erfassung von Bildern, was wiederum die Effizienz umfassender Beschreibungen erhöht. Ausführliche ablativ Studienergebnisse bestätigen die Wirksamkeit unserer Designentscheidungen.Darüber hinaus zeigen Experimente auf 18 Datensätzen, dass Monkey in vielen Aufgaben wie Bildunterschriftgenerierung und verschiedenen Formaten der visuellen Fragebeantwortung bestehende LMMs übertrifft. Besonders in qualitativen Tests zur dichten Textfragebeantwortung hat Monkey im Vergleich zu GPT4V ermutigende Ergebnisse erzielt. Der Quellcode ist unter https://github.com/Yuliang-Liu/Monkey verfügbar.