vor 3 Monaten

Image-of-Thought Prompting zur Verfeinerung visueller Schlussfolgerung in multimodalen großen Sprachmodellen

Qiji Zhou, Ruochen Zhou, Zike Hu, Panzhong Lu, Siyang Gao, Yue Zhang

Abstract

Neuere Fortschritte in der Chain-of-Thought-(CoT)- und verwandten rationalesbasierten Ansätze haben die Leistung von Großsprachmodellen (LLMs) bei komplexen Schlussfolgerungsaufgaben erheblich verbessert. Mit der Entwicklung multimodaler Großsprachmodelle (MLLMs) stellt die Verbesserung ihrer Fähigkeit, komplexe multimodale Schlussfolgerungsaufgaben zu bewältigen, eine entscheidende Forschungsfront dar. Die Einbeziehung multimodaler Rationale in CoT ist jedoch bisher noch nicht ausreichend untersucht worden. Wir stellen die Image-of-Thought-(IoT)-Prompting-Methode vor, die MLLMs dabei unterstützt, visuelle Rationale schrittweise zu extrahieren. Insbesondere kann IoT-Prompting kritische Operationen zur automatischen Extraktion visueller Informationen basierend auf Eingabebildern und Fragen entwerfen. Jeder Schritt der visuellen Informationsverfeinerung identifiziert spezifische visuelle Rationale, die Antworten auf komplexe visuelle Schlussfolgerungsaufgaben stützen. Neben dem textuellen CoT nutzt IoT gleichzeitig visuelle und textuelle Rationale, um MLLMs zu helfen, komplexe multimodale Informationen besser zu verstehen. Die IoT-Prompting-Methode hat die zero-shot-Visuelle-Schlussfolgerungsleistung in verschiedenen visuellen Verständnisaufgaben verschiedener MLLMs verbessert. Darüber hinaus liefern die schrittweise generierten visuellen Merkmalserklärungen durch IoT-Prompting eine Aufklärung des visuellen Schlussfolgerungsprozesses und unterstützen die Analyse der kognitiven Prozesse großer multimodaler Modelle.