il y a 2 mois

CoDet : Alignement guidé par la co-occurrence entre régions et mots pour la détection d'objets à vocabulaire ouvert

Ma, Chuofan ; Jiang, Yi ; Wen, Xin ; Yuan, Zehuan ; Qi, Xiaojuan

Résumé

L'obtention d'une correspondance fiable entre régions et mots à partir de paires image-texte est cruciale pour apprendre des représentations vision-langage au niveau des objets pour la détection d'objets à vocabulaire ouvert. Les méthodes existantes s'appuient généralement sur des modèles vision-langage pré-entraînés ou auto-entraînés pour l'alignement, ce qui peut entraîner des limitations en termes de précision de localisation ou de capacités de généralisation. Dans cet article, nous proposons CoDet, une nouvelle approche qui surmonte la dépendance à l'espace vision-langage pré-aligné en reformulant l'alignement région-mot comme un problème de découverte d'objets co-occurrents. Intuitivement, en regroupant les images qui mentionnent un concept partagé dans leurs légendes, les objets correspondant à ce concept devraient présenter une forte co-occurrence au sein du groupe. CoDet utilise ensuite les similarités visuelles pour découvrir ces objets co-occurrents et les aligner avec le concept partagé. De nombreuses expériences montrent que CoDet présente des performances supérieures et une scalabilité convaincante en détection à vocabulaire ouvert, par exemple, en élargissant le backbone visuel, CoDet atteint 37,0 $\text{AP}^m_{novel}$ et 44,7 $\text{AP}^m_{all}$ sur OV-LVIS, surpassant l'état de l'art précédent de 4,2 $\text{AP}^m_{novel}$ et 9,8 $\text{AP}^m_{all}$. Le code est disponible à l'adresse https://github.com/CVMI-Lab/CoDet.