HyperAIHyperAI
il y a 2 mois

ClipSitu : Utilisation efficace de CLIP pour des prédictions conditionnelles dans la reconnaissance de situations

Roy, Debaditya ; Verma, Dhruv ; Fernando, Basura
ClipSitu : Utilisation efficace de CLIP pour des prédictions conditionnelles dans la reconnaissance de situations
Résumé

La reconnaissance de situation est la tâche qui consiste à générer un résumé structuré de ce qui se passe dans une image en utilisant un verbe d'activité et les rôles sémantiques joués par les acteurs et les objets. Dans cette tâche, le même verbe d'activité peut décrire un ensemble diversifié de situations, tout comme la même catégorie d'acteur ou d'objet peut jouer un ensemble diversifié de rôles sémantiques en fonction de la situation représentée dans l'image. Par conséquent, un modèle de reconnaissance de situation doit comprendre le contexte de l'image ainsi que la signification visuelle-linguistique des rôles sémantiques. Nous utilisons donc le modèle fondamental CLIP, qui a appris le contexte des images grâce aux descriptions linguistiques. Nous montrons que des blocs de perceptrons multicouches (MLP) plus profonds et plus larges obtiennent des résultats remarquables pour la tâche de reconnaissance de situation en utilisant les caractéristiques d'embedding d'images et de texte fournies par CLIP, et qu'ils surpassent même le modèle CoFormer basé sur les Transformers, actuellement considéré comme l'état de l'art, grâce à la connaissance visuelle-linguistique implicite encapsulée par CLIP et à la puissance expressive des designs modernes de blocs MLP. Inspirés par ces résultats, nous avons conçu un Transformer basé sur l'attention croisée en utilisant les jetons visuels CLIP pour modéliser la relation entre les rôles textuels et les entités visuelles. Notre Transformer basé sur l'attention croisée, appelé ClipSitu XTF, dépasse largement l'état de l'art existant avec une marge importante de 14,1 % en termes d'exactitude pour le meilleur score (top-1) sur l'étiquetage des rôles sémantiques (valeur) en utilisant le jeu de données imSitu. De manière similaire, notre ClipSitu XTF atteint également des performances exceptionnelles en localisation de situation. Nous rendrons le code publiquement disponible.

ClipSitu : Utilisation efficace de CLIP pour des prédictions conditionnelles dans la reconnaissance de situations | Articles de recherche récents | HyperAI