GROUNDHOG: Grundlegung von großen Sprachmodellen für die holistische Segmentierung

Die meisten multimodalen großen Sprachmodelle (MM-LMs) erlernen die Verankerung von Sprache zu Objekten durch kausales Sprachmodellieren, bei dem verankerte Objekte durch Begrenzungsrahmen als Sequenzen von Ortsangaben dargestellt werden. Dieses Paradigma fehlt es jedoch an pixelbasierten Darstellungen, die für eine feingranulare visuelle Verarbeitung und Diagnose wichtig sind. In dieser Arbeit stellen wir GROUNDHOG vor, ein MM-LM, das durch die Verankerung großer Sprachmodelle an umfassende Segmentierung entwickelt wurde. GROUNDHOG integriert einen maskierten Merkmalsextraktor und wandelt die extrahierten Merkmale in visuelle Entitätstoken um, die dann vom MM-LM-Kern verwendet werden, um verankbare Phrasen mit vereinheitlichten Verankerungsmasken zu verbinden, indem es die Entitätsmasken abruft und zusammenführt. Um GROUNDHOG zu trainieren, haben wir M3G2 sorgfältig zusammengestellt, einen Datensatz zur Anpassung von verankerten visuellen Anweisungen mit multimodaler multi-granularer Verankerung (Multi-Modal Multi-Grained Grounding), indem wir eine Sammlung segmentierungsverankerter Datensätze mit reichhaltigen Annotationen ausgewählt haben. Unsere experimentellen Ergebnisse zeigen, dass GROUNDHOG ohne aufgabenbezogene Feinabstimmung überlegene Leistungen bei verschiedenen Sprachverankerungsaufgaben erzielt und signifikant die Objekt-Halluzination reduziert. Zudem zeigt GROUNDHOG eine bessere Verankerung bei komplexeren Formen visueller Eingabe und bietet leicht verständliche Diagnosen in Fehlertextfällen.