HyperAIHyperAI
il y a 11 jours

Bongard-OpenWorld : Raisonnement à faible exemplaire pour des concepts visuels librement définis dans le monde réel

Rujie Wu, Xiaojian Ma, Zhenliang Zhang, Wei Wang, Qing Li, Song-Chun Zhu, Yizhou Wang
Bongard-OpenWorld : Raisonnement à faible exemplaire pour des concepts visuels librement définis dans le monde réel
Résumé

Nous introduisons Bongard-OpenWorld, un nouveau benchmark destiné à évaluer le raisonnement à faibles exemples dans des scénarios du monde réel pour la vision par ordinateur. Ce benchmark s'inspire des problèmes classiques de Bongard (BPs) : étant donné deux ensembles d'images (positifs et négatifs), le modèle doit déterminer à quel ensemble appartiennent des images de requête en induisant les concepts visuels, exclusivement décrits par les images de l'ensemble positif. Notre benchmark conserve le principe d'induction de concepts à faibles exemples des BPs originaux, tout en ajoutant deux nouvelles couches de difficulté : 1) des concepts libres dans un monde ouvert, puisque les concepts visuels dans Bongard-OpenWorld sont des compositions uniques de termes provenant d'un vocabulaire ouvert, allant des catégories d'objets aux attributs visuels abstraits et aux connaissances factuelles du sens commun ; 2) des images du monde réel, contrairement aux diagrammes synthétiques utilisés par de nombreux modèles concurrents. Lors de notre exploration, Bongard-OpenWorld s'est déjà révélé un défi considérable pour les algorithmes actuels de raisonnement à faibles exemples. Nous avons ensuite étudié dans quelle mesure les récents Modèles de Langage Énormes (LLMs) et les Modèles Vision-Language (VLMs) sont capables de résoudre cette tâche, en interrogeant directement les VLMs, puis en combinant VLMs et LLMs dans un cadre de raisonnement interactif. Nous avons même conçu une approche neuro-symbolique qui concilie LLMs et VLMs avec un raisonnement logique afin de reproduire le processus humain de résolution des problèmes de Bongard. Pourtant, aucune de ces approches n'a réussi à combler l'écart entre humains et machines : le meilleur modèle atteint 64 % de précision, tandis que les participants humains atteignent facilement 91 %. Nous espérons que Bongard-OpenWorld contribuera à mieux comprendre les limites de l'intelligence visuelle actuelle et à stimuler la recherche future sur des agents visuels dotés de capacités renforcées de raisonnement visuel à faibles exemples.

Bongard-OpenWorld : Raisonnement à faible exemplaire pour des concepts visuels librement définis dans le monde réel | Articles de recherche récents | HyperAI