HyperAIHyperAI
il y a 11 jours

Casser le bon sens : WHOOPS ! Une base de données visuelle et linguistique d'images synthétiques et composées

Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz
Casser le bon sens : WHOOPS ! Une base de données visuelle et linguistique d'images synthétiques et composées
Résumé

Les images étranges, inhabituelles ou troublantes suscitent la curiosité des observateurs car elles remettent en question le bon sens. Par exemple, une image diffusée lors de la Coupe du monde 2022 représente les célèbres footballeurs Lionel Messi et Cristiano Ronaldo jouant aux échecs, ce qui joue habilement sur notre attente selon laquelle leur rivalité devrait se dérouler sur le terrain de football. Les êtres humains peuvent facilement reconnaître et interpréter ces images atypiques, mais les modèles d’intelligence artificielle sont-ils capables de faire de même ? Nous présentons WHOOPS!, un nouveau jeu de données et un benchmark pour le raisonnement visuel fondé sur le bon sens. Ce jeu de données est composé d’images conçues intentionnellement pour défier le bon sens, créées par des designers à l’aide d’outils publics de génération d’images tels que Midjourney. Nous proposons plusieurs tâches sur ce jeu de données : en plus de la génération de légendes, du couplage multimodal et de la réponse à des questions visuelles, nous introduisons une tâche difficile de génération d’explications, dans laquelle les modèles doivent identifier et expliquer pourquoi une image donnée est inhabituelle. Nos résultats montrent que les modèles de pointe tels que GPT-3 et BLIP2 restent encore largement en retard par rapport aux performances humaines sur WHOOPS!. Nous espérons que notre jeu de données stimulera le développement de modèles d’intelligence artificielle dotés d’une meilleure capacité de raisonnement visuel fondé sur le bon sens. Les données, les modèles et le code sont disponibles sur le site du projet : whoops-benchmark.github.io

Casser le bon sens : WHOOPS ! Une base de données visuelle et linguistique d'images synthétiques et composées | Articles de recherche récents | HyperAI