COFAR : Raisonnement sur le sens commun et les faits dans la recherche d'images

Une caractéristique qui distingue les êtres humains des modèles d’intelligence artificielle moderne réside dans la capacité à interpréter les images au-delà de ce qui est visuellement évident. Considérons les deux requêtes de recherche en langage naturel suivantes : (i) « une file d’attente de clients patientant pour acheter de la glace » et (ii) « une file d’attente de touristes se rendant voir une célèbre architecture moghole en Inde ». L’interprétation de ces requêtes suppose une raisonnement fondé sur (i) le bon sens, par exemple l’identification des individus comme clients ou touristes, et des actions comme « attendre pour acheter » ou « se rendre pour voir » ; et (ii) des connaissances factuelles ou du savoir du monde associées à des entités visuelles nommées, par exemple savoir si le commerce présent dans l’image vend de la glace, ou si le monument visible est bien une architecture moghole située en Inde. Ce type de raisonnement dépasse largement la simple reconnaissance visuelle. Pour permettre à la fois le raisonnement basé sur le bon sens et le raisonnement factuel dans la recherche d’images, nous proposons un cadre unifié, nommé Transformer Multimodal à Récupération de Connaissances (KRAMT), qui considère les entités visuelles nommées présentes dans une image comme une porte d’accès à des connaissances encyclopédiques, et exploite ces entités conjointement avec la requête en langage naturel afin de situer les connaissances pertinentes. En outre, KRAMT intègre de manière fluide le contenu visuel et les connaissances situées afin d’apprendre une correspondance précise entre les images et les requêtes de recherche. Ce cadre unifié est ensuite utilisé pour effectuer des recherches d’images nécessitant un raisonnement basé sur le bon sens et des faits concrets. La performance de récupération de KRAMT est évaluée et comparée à celle d’approches connexes sur un nouveau jeu de données que nous introduisons, appelé COFAR. Nous mettons à disposition notre code et notre jeu de données à l’adresse suivante : https://vl2g.github.io/projects/cofar