vor 2 Monaten

Groma: Lokale visuelle Tokenisierung für die Verankerung multimodaler großer Sprachmodelle

Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi

Abstract

Wir stellen Groma vor, ein multimodales großes Sprachmodell (Multimodal Large Language Model, MLLM), das über eine fundierte und detaillierte visuelle Wahrnehmungsfähigkeit verfügt. Neben der umfassenden Bildverarbeitung ist Groma in regionalen Aufgaben wie Regionenbeschreibung und visueller Ankerlegung besonders geschickt. Diese Fähigkeiten basieren auf einem lokalen Visualisierungstokenisierungsmechanismus, bei dem ein Bildeingang in Bereiche von Interesse zerlegt und anschließend in Regionentoken kodiert wird. Durch die Integration von Regionentoken in Benutzeranweisungen und Modellanworten ermöglichen wir es Groma nahtlos, benutzerdefinierte Regioneneingaben zu verstehen und seine textbasierte Ausgabe mit Bildern zu verankern. Darüber hinaus haben wir einen visuell verankerten Anweisungssatz zusammengestellt, indem wir die leistungsfähige GPT-4V und visuelle Prompting-Techniken nutzen. Im Vergleich zu MLLMs, die auf das Sprachmodell oder externe Module für die Lokalisierung angewiesen sind, zeigt Groma konsistent bessere Leistungen in Standard-Referenz- und Verankerungsbenchmarks, was die Vorteile der Einbettung der Lokalisierung in die Bildtokenisierung unterstreicht.Projektseite: https://groma-mllm.github.io/.