HyperAIHyperAI

Command Palette

Search for a command to run...

Image-of-Thought Prompting zur Verfeinerung visueller Schlussfolgerung in multimodalen großen Sprachmodellen

Qiji Zhou Ruochen Zhou Zike Hu Panzhong Lu Siyang Gao Yue Zhang

Zusammenfassung

Neuere Fortschritte in der Chain-of-Thought-(CoT)- und verwandten rationalesbasierten Ansätze haben die Leistung von Großsprachmodellen (LLMs) bei komplexen Schlussfolgerungsaufgaben erheblich verbessert. Mit der Entwicklung multimodaler Großsprachmodelle (MLLMs) stellt die Verbesserung ihrer Fähigkeit, komplexe multimodale Schlussfolgerungsaufgaben zu bewältigen, eine entscheidende Forschungsfront dar. Die Einbeziehung multimodaler Rationale in CoT ist jedoch bisher noch nicht ausreichend untersucht worden. Wir stellen die Image-of-Thought-(IoT)-Prompting-Methode vor, die MLLMs dabei unterstützt, visuelle Rationale schrittweise zu extrahieren. Insbesondere kann IoT-Prompting kritische Operationen zur automatischen Extraktion visueller Informationen basierend auf Eingabebildern und Fragen entwerfen. Jeder Schritt der visuellen Informationsverfeinerung identifiziert spezifische visuelle Rationale, die Antworten auf komplexe visuelle Schlussfolgerungsaufgaben stützen. Neben dem textuellen CoT nutzt IoT gleichzeitig visuelle und textuelle Rationale, um MLLMs zu helfen, komplexe multimodale Informationen besser zu verstehen. Die IoT-Prompting-Methode hat die zero-shot-Visuelle-Schlussfolgerungsleistung in verschiedenen visuellen Verständnisaufgaben verschiedener MLLMs verbessert. Darüber hinaus liefern die schrittweise generierten visuellen Merkmalserklärungen durch IoT-Prompting eine Aufklärung des visuellen Schlussfolgerungsprozesses und unterstützen die Analyse der kognitiven Prozesse großer multimodaler Modelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp