HyperAI
il y a 8 jours

Pixels, Motifs, mais pas de Poésie : Voir le Monde comme les Humains

Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
Pixels, Motifs, mais pas de Poésie : Voir le Monde comme les Humains
Résumé

L'atteinte d'une perception et d'une raisonnement semblables à ceux des humains dans les Modèles de Langue à Grande Échelle Multimodaux (MLLMs) reste un défi central en intelligence artificielle. Bien que les recherches récentes se soient principalement concentrées sur l'amélioration des capacités de raisonnement des MLLMs, une question fondamentale persiste : Les MLLMs peuvent-ils véritablement percevoir le monde comme le font les humains ? Cet article se concentre davantage sur la perception que sur le raisonnement. Plutôt que de construire des benchmarks spécifiquement dédiés au raisonnement, nous introduisons le Turing Eye Test (TET), un benchmark axé sur la perception, composé de quatre tâches diagnostiques qui évaluent les performances des MLLMs sur des images synthétiques que les humains perçoivent de manière intuitive. Nos résultats montrent que les MLLMs les plus récents présentent des échecs catastrophiques sur ces tâches, qui sont pourtant triviales pour les humains. À la fois l'apprentissage en contexte et l'entraînement sur le modèle de langage — efficaces pour les benchmarks précédents — ne permettent pas d'améliorer les performances sur nos tâches, tandis que le finetuning de la tour de vision permet une adaptation rapide, suggérant que notre benchmark pose des défis liés à la généralisation de la tour de vision plutôt qu'aux capacités de connaissance et de raisonnement du modèle de langage — un écart clé entre les MLLMs actuels et la perception humaine. Dans cette version, nous mettons à disposition un sous-ensemble représentatif des tâches du TET, et nous introduirons dans nos travaux futurs davantage de tâches variées et de méthodes visant à améliorer la généralisation visuelle.