HyperAIHyperAI
il y a 2 mois

CoCoT : Incitation contrastive à la chaîne de pensée pour les grands modèles multimodaux avec plusieurs entrées d'images

Zhang, Daoan ; Yang, Junming ; Lyu, Hanjia ; Jin, Zijian ; Yao, Yuan ; Chen, Mingkai ; Luo, Jiebo
CoCoT : Incitation contrastive à la chaîne de pensée pour les grands modèles multimodaux avec plusieurs entrées d'images
Résumé

Lors de l'exploration du développement de l'Intelligence Artificielle Générale (IAG), une tâche critique pour ces modèles consiste à interpréter et traiter des informations provenant de multiples entrées d'images. Cependant, les grands modèles multimodaux (GMM) rencontrent deux problèmes dans de telles situations : (1) un manque de perception fine, et (2) une tendance à mélanger les informations entre plusieurs images. Nous menons d'abord une enquête approfondie sur la capacité des GMM à percevoir des détails visuels fins lorsqu'ils traitent plusieurs images en entrée. La recherche se concentre sur deux aspects : premièrement, le couplage image-à-image (pour évaluer si les GMM peuvent raisonner efficacement et associer des images pertinentes), et deuxièmement, le couplage multi-image-à-texte (pour évaluer si les GMM peuvent capturer et résumer avec précision des informations détaillées provenant de plusieurs images). Nous effectuons des évaluations sur une gamme de grands modèles, tant open-source que fermés, y compris GPT-4V, Gemini, OpenFlamingo et MMICL. Pour améliorer les performances des modèles, nous développons également une approche d'incitation par chaîne de pensée contrastive (CoCoT) basée sur des modèles multimodaux à entrées multiples. Cette méthode exige que les GMM comparent les similarités et les différences entre plusieurs entrées d'images, puis guident les modèles pour répondre à des questions détaillées sur les entrées multi-images en se basant sur les similarités et différences identifiées. Nos résultats expérimentaux mettent en lumière l'efficacité du CoCoT pour renforcer les capacités de compréhension multi-images des grands modèles multimodaux.

CoCoT : Incitation contrastive à la chaîne de pensée pour les grands modèles multimodaux avec plusieurs entrées d'images | Articles de recherche récents | HyperAI