Ensemble De Données De Puzzle Algorithmique Multimodal AlgoPuzzleVQA
Date
Taille
URL de publication
Catégories
L'ensemble de données AlgoPuzzleVQA est un ensemble de données de raisonnement multimodal construit par l'Université de technologie et de design de Singapour pour défier et évaluer la capacité des modèles de langage multimodaux à résoudre des énigmes algorithmiques qui nécessitent une compréhension visuelle, une compréhension du langage et un raisonnement algorithmique complexe.
L'ensemble de données contient 18 puzzles différents couvrant divers sujets mathématiques et algorithmiques tels que la logique booléenne, la combinatoire, la théorie des graphes, l'optimisation, la recherche, etc. L'ensemble de données génère des puzzles à partir de code écrit par l'homme de manière automatisée, garantissant que l'ensemble de données peut évoluer arbitrairement en termes de complexité d'inférence et de taille de l'ensemble de données. Ces énigmes ont toutes des solutions exactes qui peuvent être trouvées de manière algorithmique sans avoir recours à des calculs manuels fastidieux.
AlgoPuzzleVQA peut être utilisé comme référence pour les capacités de raisonnement multimodal afin d'évaluer et de faire progresser la capacité des modèles de langage multimodaux à résoudre des problèmes complexes qui combinent la vision, la compréhension du langage et le raisonnement algorithmique.