HyperAIHyperAI

Command Palette

Search for a command to run...

Groma: Lokale visuelle Tokenisierung für die Verankerung multimodaler großer Sprachmodelle

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

Zusammenfassung

Wir stellen Groma vor, ein multimodales großes Sprachmodell (Multimodal Large Language Model, MLLM), das über eine fundierte und detaillierte visuelle Wahrnehmungsfähigkeit verfügt. Neben der umfassenden Bildverarbeitung ist Groma in regionalen Aufgaben wie Regionenbeschreibung und visueller Ankerlegung besonders geschickt. Diese Fähigkeiten basieren auf einem lokalen Visualisierungstokenisierungsmechanismus, bei dem ein Bildeingang in Bereiche von Interesse zerlegt und anschließend in Regionentoken kodiert wird. Durch die Integration von Regionentoken in Benutzeranweisungen und Modellanworten ermöglichen wir es Groma nahtlos, benutzerdefinierte Regioneneingaben zu verstehen und seine textbasierte Ausgabe mit Bildern zu verankern. Darüber hinaus haben wir einen visuell verankerten Anweisungssatz zusammengestellt, indem wir die leistungsfähige GPT-4V und visuelle Prompting-Techniken nutzen. Im Vergleich zu MLLMs, die auf das Sprachmodell oder externe Module für die Lokalisierung angewiesen sind, zeigt Groma konsistent bessere Leistungen in Standard-Referenz- und Verankerungsbenchmarks, was die Vorteile der Einbettung der Lokalisierung in die Bildtokenisierung unterstreicht.Projektseite: https://groma-mllm.github.io/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Groma: Lokale visuelle Tokenisierung für die Verankerung multimodaler großer Sprachmodelle | Paper | HyperAI