HyperAIHyperAI

Command Palette

Search for a command to run...

Affe: Bildauflösung und Textbezeichnung sind wichtige Aspekte für große multimodale Modelle.

Li Zhang ; Yang Biao ; Liu Qiang ; Ma Zhiyin ; Zhang Shuo ; Yang Jingxu ; Sun Yabo ; Liu Yuliang ; Bai Xiang

Zusammenfassung

Große multimodale Modelle (LMMs) haben in visuellen und sprachlichen Aufgaben vielversprechende Ergebnisse gezeigt, aber Schwierigkeiten bei der Verarbeitung hochauflösender Eingaben und der detaillierten Szeneanalyse. Um diese Herausforderungen zu bewältigen, stellen wir Monkey vor, um die Fähigkeiten von LMMs zu verbessern.Erstens verarbeitet Monkey Eingabebilder, indem es sie in gleichförmige Patchs unterteilt, wobei jeder Patch die Größe (z.B. 448x448 Pixel) entspricht, die beim ursprünglichen Training des gut ausgebildeten visuellen Encoders verwendet wurde. Durch den Einsatz eines individuellen Adapters für jeden Patch kann Monkey Auflösungen bis zu 1344x896 Pixel verarbeiten und komplexe visuelle Informationen detailliert erfassen.Zweitens nutzt es eine mehrstufige Beschreibungsgenerierungsmethode, um den Kontext für Objekt-Szenen-Assoziationen zu bereichern. Diese zweiteilige Strategie gewährleistet ein effektiveres Lernen aus generierten Daten: Die höhere Auflösung ermöglicht eine detailliertere Erfassung von Bildern, was wiederum die Effizienz umfassender Beschreibungen erhöht. Ausführliche ablativ Studienergebnisse bestätigen die Wirksamkeit unserer Designentscheidungen.Darüber hinaus zeigen Experimente auf 18 Datensätzen, dass Monkey in vielen Aufgaben wie Bildunterschriftgenerierung und verschiedenen Formaten der visuellen Fragebeantwortung bestehende LMMs übertrifft. Besonders in qualitativen Tests zur dichten Textfragebeantwortung hat Monkey im Vergleich zu GPT4V ermutigende Ergebnisse erzielt. Der Quellcode ist unter https://github.com/Yuliang-Liu/Monkey verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp