Alignement du Bag of Regions pour la détection d'objets à vocabulaire ouvert

Les modèles vision-langage pré-entraînés (VLM) apprennent à aligner les représentations visuelles et linguistiques sur de grandes bases de données, où chaque paire image-texte contient généralement un ensemble de concepts sémantiques. Toutefois, les détecteurs d'objets à vocabulaire ouvert existants ne font que aligner individuellement les embeddings de régions avec les caractéristiques correspondantes extraites des VLM. Ce design laisse inexplorée la structure compositionnelle des concepts sémantiques présents dans une scène, bien que cette structure puisse être implicitement apprise par les VLM. Dans ce travail, nous proposons d’aligner l’embedding d’un ensemble de régions au-delà des régions individuelles. La méthode proposée regroupe des régions interdépendantes sémantiquement en un ensemble. Les embeddings des régions appartenant à un même ensemble sont traités comme des mots dans une phrase, puis envoyés au encodeur de texte d’un VLM afin d’obtenir un embedding de type « bag-of-regions », qui est appris à être aligné avec les caractéristiques correspondantes extraites par un VLM gelé. Appliqué au modèle couramment utilisé Faster R-CNN, notre approche dépasse les résultats précédemment meilleurs de 4,6 points de box AP50 et de 2,8 points de mask AP sur les catégories nouvelles des benchmarks open-vocabulary COCO et LVIS, respectivement. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/wusize/ovdet.