HyperAIHyperAI

Command Palette

Search for a command to run...

GROUNDHOG: Grundlegung von großen Sprachmodellen für die holistische Segmentierung

Zhiyue Zhang Yuxuan Chen Yuhang Jiang Jianwei Yang Xiaowei Li

Zusammenfassung

Die meisten multimodalen großen Sprachmodelle (MM-LMs) erlernen die Verankerung von Sprache zu Objekten durch kausales Sprachmodellieren, bei dem verankerte Objekte durch Begrenzungsrahmen als Sequenzen von Ortsangaben dargestellt werden. Dieses Paradigma fehlt es jedoch an pixelbasierten Darstellungen, die für eine feingranulare visuelle Verarbeitung und Diagnose wichtig sind. In dieser Arbeit stellen wir GROUNDHOG vor, ein MM-LM, das durch die Verankerung großer Sprachmodelle an umfassende Segmentierung entwickelt wurde. GROUNDHOG integriert einen maskierten Merkmalsextraktor und wandelt die extrahierten Merkmale in visuelle Entitätstoken um, die dann vom MM-LM-Kern verwendet werden, um verankbare Phrasen mit vereinheitlichten Verankerungsmasken zu verbinden, indem es die Entitätsmasken abruft und zusammenführt. Um GROUNDHOG zu trainieren, haben wir M3G2 sorgfältig zusammengestellt, einen Datensatz zur Anpassung von verankerten visuellen Anweisungen mit multimodaler multi-granularer Verankerung (Multi-Modal Multi-Grained Grounding), indem wir eine Sammlung segmentierungsverankerter Datensätze mit reichhaltigen Annotationen ausgewählt haben. Unsere experimentellen Ergebnisse zeigen, dass GROUNDHOG ohne aufgabenbezogene Feinabstimmung überlegene Leistungen bei verschiedenen Sprachverankerungsaufgaben erzielt und signifikant die Objekt-Halluzination reduziert. Zudem zeigt GROUNDHOG eine bessere Verankerung bei komplexeren Formen visueller Eingabe und bietet leicht verständliche Diagnosen in Fehlertextfällen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp