CLIM : Mosaïque Langage-Image Contrastive pour la Représentation de Région

La détection précise d’objets à partir d’un vocabulaire large ou ouvert exige une alignement vision-langage sur les représentations régionales. Toutefois, l’apprentissage d’un tel alignement régions-textes nécessite des annotations de boîtes de haute qualité accompagnées d’étiquettes ou de descriptions textuelles, ce qui s’avère coûteux et souvent irréalisable. En revanche, la collecte de paires image-texte est plus simple, mais elle manque d’informations précises sur la localisation des objets, rendant difficile l’association entre régions et textes. Dans cet article, nous proposons une nouvelle approche appelée Contraste Langage-Image Mosaïque (CLIM), qui exploite efficacement de grandes quantités de paires image-texte pour aligner les représentations régionales et textuelles. CLIM combine plusieurs images en une image mosaïquée, en traitant chaque image comme une « région pseudo ». Les caractéristiques de chaque région pseudo sont extraites et entraînées pour être similaires à l’encodage textuel correspondant, tout en étant dissimilaires aux autres, grâce à une perte contrastive. Cette approche permet au modèle d’apprendre l’alignement régions-textes sans nécessiter d’annotations de boîtes coûteuses. En tant qu’approche généralement applicable, CLIM améliore de manière cohérente différentes méthodes de détection d’objets à vocabulaire ouvert qui utilisent une supervision par légendes. En outre, CLIM améliore efficacement les représentations régionales des modèles vision-langage, fournissant ainsi des architectures plus puissantes pour les détecteurs d’objets à vocabulaire ouvert. Nos résultats expérimentaux montrent que CLIM améliore de manière significative divers modèles de détection d’objets à vocabulaire ouvert sur les benchmarks OV-COCO et OV-LVIS. Le code est disponible à l’adresse suivante : https://github.com/wusize/CLIM.