RegionCLIP : Pré-entraînement Langage-Image Basé sur les Régions

Le préentraînement contrastif langage-image (CLIP) basé sur des paires image-texte a obtenu des résultats remarquables en classification d’images, tant dans des scénarios zero-shot que dans des tâches de transfer learning. Toutefois, nous montrons qu’une application directe de ces modèles pour la reconnaissance de régions d’image dans la détection d’objets conduit à de mauvaises performances, en raison d’un décalage de domaine : CLIP a été entraîné pour associer une image dans sa globalité à une description textuelle, sans capturer l’alignement fin entre des régions d’image et des segments textuels. Pour atténuer ce problème, nous proposons une nouvelle méthode appelée RegionCLIP, qui étend significativement CLIP afin d’apprendre des représentations visuelles au niveau des régions, permettant ainsi un alignement fin entre les régions d’image et les concepts textuels. Notre méthode exploite un modèle CLIP pour associer des régions d’image à des légendes modèles, puis préentraîne notre modèle pour aligner ces paires région-texte dans l’espace des caractéristiques. Lors du transfert de notre modèle préentraîné vers des tâches de détection d’objets à vocabulaire ouvert, notre méthode dépasse largement l’état de l’art, avec une amélioration de 3,8 points AP50 et de 2,2 points AP pour les catégories nouvelles sur les jeux de données COCO et LVIS, respectivement. En outre, les représentations de régions apprises permettent une inférence zero-shot pour la détection d’objets, obtenant des résultats prometteurs sur les deux jeux de données COCO et LVIS. Notre code est disponible à l’adresse suivante : https://github.com/microsoft/RegionCLIP.