PACS : Un Jeu de Données pour le Raisonnement Audiovisuel Commun en Physique

Pour que l'IA puisse être déployée en toute sécurité dans des scénarios réels tels que les hôpitaux, les écoles et les lieux de travail, elle doit être capable de raisonner de manière robuste sur le monde physique. À la base de ce raisonnement se trouve le sens commun physique : comprendre les propriétés physiques et les possibilités d'utilisation des objets disponibles, comment ils peuvent être manipulés, et comment ils interagissent avec d'autres objets. Le raisonnement du sens commun physique est fondamentalement une tâche multisensorielle, car les propriétés physiques sont manifestées par plusieurs modalités – deux d'entre elles étant la vision et l'acoustique. Notre article fait un pas vers le raisonnement du sens commun physique dans le monde réel en contribuant à PACS : le premier banc d'essai audiovisuel annoté pour les attributs de sens commun physique. PACS contient 13 400 paires question-réponse, impliquant 1 377 questions uniques de sens commun physique et 1 526 vidéos. Notre jeu de données offre de nouvelles opportunités pour faire progresser le domaine de recherche du raisonnement physique en intégrant l'audio comme composante centrale de ce problème multimodal. En utilisant PACS, nous évaluons plusieurs modèles de pointe sur notre nouvelle tâche complexe. Bien que certains modèles montrent des résultats prometteurs (70 % d'exactitude), tous restent en dessous des performances humaines (95 % d'exactitude). Nous concluons cet article en soulignant l'importance du raisonnement multimodal et en proposant des pistes possibles pour la recherche future.