HyperAIHyperAI

Command Palette

Search for a command to run...

Les Modèles de Langage sont-ils des prodiges des énigmes ? Les énigmes algorithmiques révèlent des défis sérieux dans le raisonnement multimodal

Deepanway Ghosal Vernon Toh Yan Han Chia Yew Ken Soujanya Poria

Résumé

Cet article introduit une nouvelle tâche : la résolution de puzzles multimodaux, formulée dans le cadre de la question-réponse visuelle. Nous présentons un nouveau jeu de données, AlgoPuzzleVQA, conçu pour défier et évaluer les capacités des modèles linguistiques multimodaux dans la résolution de puzzles algorithmiques exigeant à la fois une compréhension visuelle, une compréhension linguistique et un raisonnement algorithmique complexe. Les puzzles sont conçus pour couvrir une diversité de sujets mathématiques et algorithmiques, tels que la logique booléenne, la combinatoire, la théorie des graphes, l'optimisation, la recherche, etc., dans le but d’évaluer l’écart entre la capacité à interpréter les données visuelles et celle à résoudre des problèmes algorithmiques. Ce jeu de données est généré automatiquement à partir de code rédigé par des humains. Tous nos puzzles possèdent des solutions exactes, pouvant être déduites directement de l’algorithme sans calculs humains fastidieux. Cette caractéristique garantit que notre jeu de données peut être étendu arbitrairement en complexité de raisonnement et en taille. Notre étude révèle que les grands modèles linguistiques (LLM), tels que GPT4V et Gemini, présentent des performances limitées dans les tâches de résolution de puzzles. Nous constatons que leurs performances sont proches du hasard dans un cadre de question à choix multiples pour un grand nombre de puzzles. Ces résultats mettent en évidence les défis inhérents à l’intégration des connaissances visuelles, linguistiques et algorithmiques pour résoudre des problèmes de raisonnement complexes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp