REBUS : Une base d'évaluation robuste de la compréhension des symboles

Nous proposons une nouvelle référence d’évaluation destinée à mesurer les performances des grands modèles linguistiques multimodaux sur des énigmes visuelles (rebus). Le jeu de données comprend 333 exemples originaux d’énigmes basées sur des images, mettant en jeu 13 catégories distinctes — telles que les films, les compositeurs, les grandes villes ou les aliments. Pour réussir sur cette référence, les modèles doivent combiner la reconnaissance d’images, la manipulation de chaînes de caractères, le test d’hypothèses, un raisonnement en plusieurs étapes ainsi qu’une compréhension de la cognition humaine, ce qui constitue une évaluation complexe et multimodale de leurs capacités. Nous constatons que GPT-4o surpasse significativement tous les autres modèles, suivi par les modèles propriétaires qui dépassent tous les autres modèles évalués. Toutefois, même le meilleur modèle atteint une précision finale de seulement 42 %, qui chute à 7 % sur les énigmes les plus difficiles, soulignant la nécessité d’améliorations substantielles en matière de raisonnement. En outre, les modèles comprennent rarement toutes les composantes d’une énigme et sont presque toujours incapables d’expliquer rétrospectivement la réponse correcte. Cette référence peut donc servir à identifier les lacunes majeures dans les connaissances et le raisonnement des grands modèles linguistiques multimodaux.