HyperAIHyperAI

Command Palette

Search for a command to run...

Image-of-Thought Prompting pour le raffinement du raisonnement visuel dans les modèles linguistiques multimodaux à grande échelle

Qiji Zhou Ruochen Zhou Zike Hu Panzhong Lu Siyang Gao Yue Zhang

Résumé

Les avancées récentes dans les méthodes de chaîne de raisonnement (Chain-of-Thought, CoT) et les travaux connexes fondés sur les justifications ont considérablement amélioré les performances des grands modèles linguistiques (Large Language Models, LLM) dans les tâches de raisonnement complexes. Avec l’évolution des grands modèles linguistiques multimodaux (Multimodal Large Language Models, MLLM), renforcer leur capacité à résoudre des problèmes complexes de raisonnement multimodal constitue une frontière cruciale. Toutefois, l’intégration de justifications multimodales dans le cadre de la CoT n’a pas encore été suffisamment explorée. Nous proposons une méthode d’incitation appelée Image-of-Thought (IoT), qui permet aux MLLM d’extraire progressivement des justifications visuelles. Plus précisément, la méthode IoT peut concevoir automatiquement des opérations d’extraction d’informations visuelles pertinentes en fonction des images d’entrée et des questions posées. À chaque étape de raffinement des caractéristiques visuelles, des justifications visuelles spécifiques sont identifiées afin de soutenir les réponses aux questions complexes de raisonnement visuel. Au-delà de la chaîne de raisonnement textuelle classique, IoT utilise simultanément des justifications visuelles et textuelles pour aider les MLLM à mieux comprendre les informations multimodales complexes. La méthode IoT a amélioré les performances en raisonnement visuel en situation zero-shot sur diverses tâches de compréhension visuelle, sur différents MLLM. En outre, les explications pas à pas des caractéristiques visuelles générées par IoT permettent de rendre explicite le processus de raisonnement visuel, facilitant ainsi l’analyse des processus cognitifs des grands modèles multimodaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp