Les Modèles de Langage sont-ils des prodiges des énigmes ? Les énigmes algorithmiques révèlent des défis sérieux dans le raisonnement multimodal

Cet article introduit une nouvelle tâche : la résolution de puzzles multimodaux, formulée dans le cadre de la question-réponse visuelle. Nous présentons un nouveau jeu de données, AlgoPuzzleVQA, conçu pour défier et évaluer les capacités des modèles linguistiques multimodaux dans la résolution de puzzles algorithmiques exigeant à la fois une compréhension visuelle, une compréhension linguistique et un raisonnement algorithmique complexe. Les puzzles sont conçus pour couvrir une diversité de sujets mathématiques et algorithmiques, tels que la logique booléenne, la combinatoire, la théorie des graphes, l'optimisation, la recherche, etc., dans le but d’évaluer l’écart entre la capacité à interpréter les données visuelles et celle à résoudre des problèmes algorithmiques. Ce jeu de données est généré automatiquement à partir de code rédigé par des humains. Tous nos puzzles possèdent des solutions exactes, pouvant être déduites directement de l’algorithme sans calculs humains fastidieux. Cette caractéristique garantit que notre jeu de données peut être étendu arbitrairement en complexité de raisonnement et en taille. Notre étude révèle que les grands modèles linguistiques (LLM), tels que GPT4V et Gemini, présentent des performances limitées dans les tâches de résolution de puzzles. Nous constatons que leurs performances sont proches du hasard dans un cadre de question à choix multiples pour un grand nombre de puzzles. Ces résultats mettent en évidence les défis inhérents à l’intégration des connaissances visuelles, linguistiques et algorithmiques pour résoudre des problèmes de raisonnement complexes.