Image-of-Thought Prompting pour le raffinement du raisonnement visuel dans les modèles linguistiques multimodaux à grande échelle

Les avancées récentes dans les méthodes de chaîne de raisonnement (Chain-of-Thought, CoT) et les travaux connexes fondés sur les justifications ont considérablement amélioré les performances des grands modèles linguistiques (Large Language Models, LLM) dans les tâches de raisonnement complexes. Avec l’évolution des grands modèles linguistiques multimodaux (Multimodal Large Language Models, MLLM), renforcer leur capacité à résoudre des problèmes complexes de raisonnement multimodal constitue une frontière cruciale. Toutefois, l’intégration de justifications multimodales dans le cadre de la CoT n’a pas encore été suffisamment explorée. Nous proposons une méthode d’incitation appelée Image-of-Thought (IoT), qui permet aux MLLM d’extraire progressivement des justifications visuelles. Plus précisément, la méthode IoT peut concevoir automatiquement des opérations d’extraction d’informations visuelles pertinentes en fonction des images d’entrée et des questions posées. À chaque étape de raffinement des caractéristiques visuelles, des justifications visuelles spécifiques sont identifiées afin de soutenir les réponses aux questions complexes de raisonnement visuel. Au-delà de la chaîne de raisonnement textuelle classique, IoT utilise simultanément des justifications visuelles et textuelles pour aider les MLLM à mieux comprendre les informations multimodales complexes. La méthode IoT a amélioré les performances en raisonnement visuel en situation zero-shot sur diverses tâches de compréhension visuelle, sur différents MLLM. En outre, les explications pas à pas des caractéristiques visuelles générées par IoT permettent de rendre explicite le processus de raisonnement visuel, facilitant ainsi l’analyse des processus cognitifs des grands modèles multimodaux.