HyperAIHyperAI
vor 11 Tagen

Aufzählung der Elemente einzeln: Eine neue Datenquelle und Lernparadigma für multimodale LLMs

An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang
Aufzählung der Elemente einzeln: Eine neue Datenquelle und Lernparadigma für multimodale LLMs
Abstract

Set-of-Mark (SoM) Prompting entfaltet die visuelle Grundierungsfähigkeit von GPT-4V, indem es dem Modell ermöglicht, visuelle Objekte den an das Bild angebrachten Tags zuzuordnen. Diese Tags, die mit alphanumerischen Kennzeichnungen versehen sind, können über Text-Token indiziert werden, um eine einfache Referenzierung zu gewährleisten. Trotz der außergewöhnlichen Leistung von GPT-4V stellen wir fest, dass andere Multimodale Große Sprachmodelle (MLLMs) Schwierigkeiten haben, diese visuellen Tags zu verstehen. Um das Lernen von SoM-Prompting für Open-Source-Modelle zu fördern, schlagen wir ein neues Lernparadigma vor: „Liste die Elemente nacheinander auf“, bei dem das Modell aufgefordert wird, alle visuellen Tags in der Reihenfolge ihrer alphanumerischen Kennung aufzulisten und zu beschreiben. Durch die Integration unseres konservierten Datensatzes mit anderen Datensätzen für visuelle Anweisungstuning gelingt es uns, bestehende MLLMs die Fähigkeit zum SoM-Prompting zu vermitteln. Darüber hinaus evaluieren wir unsere fine-tunenden SoM-Modelle an fünf MLLM-Benchmarks. Wir stellen fest, dass dieser neue Datensatz – selbst bei relativ kleinem Umfang (10.000 bis 30.000 mit Tags versehene Bilder) – die visuelle Schlussfolgerungsfähigkeit erheblich verbessert und Halluzinationen bei MLLMs reduziert. Überraschenderweise bleiben diese Verbesserungen auch dann erhalten, wenn während der Inferenz die visuellen Tags aus den Eingabebildern entfernt werden. Dies deutet auf das Potenzial des Ansatzes „Liste die Elemente nacheinander auf“ als neues Paradigma für die Schulung von MLLMs hin, das die Objekt-Text-Ausrichtung durch die Nutzung visueller Tags im Trainingsstadium stärkt. Schließlich führen wir Analysen durch, indem wir die trainierten Modelle untersuchen, um deren Arbeitsmechanismus im Kontext von SoM zu verstehen. Unser Code und die Daten sind unter https://github.com/zzxslp/SoM-LLaVA verfügbar.

Aufzählung der Elemente einzeln: Eine neue Datenquelle und Lernparadigma für multimodale LLMs | Neueste Forschungsarbeiten | HyperAI