HyperAIHyperAI

Command Palette

Search for a command to run...

COFAR : Raisonnement sur le sens commun et les faits dans la recherche d'images

Prajwal Gatti Abhirama Subramanyam Penamakuri Revant Teotia Anand Mishra Shubhashis Sengupta Roshni Ramnani

Résumé

Une caractéristique qui distingue les êtres humains des modèles d’intelligence artificielle moderne réside dans la capacité à interpréter les images au-delà de ce qui est visuellement évident. Considérons les deux requêtes de recherche en langage naturel suivantes : (i) « une file d’attente de clients patientant pour acheter de la glace » et (ii) « une file d’attente de touristes se rendant voir une célèbre architecture moghole en Inde ». L’interprétation de ces requêtes suppose une raisonnement fondé sur (i) le bon sens, par exemple l’identification des individus comme clients ou touristes, et des actions comme « attendre pour acheter » ou « se rendre pour voir » ; et (ii) des connaissances factuelles ou du savoir du monde associées à des entités visuelles nommées, par exemple savoir si le commerce présent dans l’image vend de la glace, ou si le monument visible est bien une architecture moghole située en Inde. Ce type de raisonnement dépasse largement la simple reconnaissance visuelle. Pour permettre à la fois le raisonnement basé sur le bon sens et le raisonnement factuel dans la recherche d’images, nous proposons un cadre unifié, nommé Transformer Multimodal à Récupération de Connaissances (KRAMT), qui considère les entités visuelles nommées présentes dans une image comme une porte d’accès à des connaissances encyclopédiques, et exploite ces entités conjointement avec la requête en langage naturel afin de situer les connaissances pertinentes. En outre, KRAMT intègre de manière fluide le contenu visuel et les connaissances situées afin d’apprendre une correspondance précise entre les images et les requêtes de recherche. Ce cadre unifié est ensuite utilisé pour effectuer des recherches d’images nécessitant un raisonnement basé sur le bon sens et des faits concrets. La performance de récupération de KRAMT est évaluée et comparée à celle d’approches connexes sur un nouveau jeu de données que nous introduisons, appelé COFAR. Nous mettons à disposition notre code et notre jeu de données à l’adresse suivante : https://vl2g.github.io/projects/cofar


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp