HyperAIHyperAI
il y a 2 mois

SIA-OVD : Adaptateur Invariant de Forme pour Pontifier l'Écart entre les Régions d'Image et la Détection à Vocabulaire Ouvert

Zishuo Wang; Wenhao Zhou; Jinglin Xu; Yuxin Peng
SIA-OVD : Adaptateur Invariant de Forme pour Pontifier l'Écart entre les Régions d'Image et la Détection à Vocabulaire Ouvert
Résumé

La détection de vocabulaire ouvert (OVD) vise à détecter de nouveaux objets sans annotations au niveau des instances afin d'atteindre la détection d'objets dans un monde ouvert à moindre coût. Les méthodes OVD existantes s'appuient principalement sur la puissante capacité d'alignement image-texte des modèles pré-entraînés Vision-Langage (VLM), tels que CLIP. Cependant, CLIP est formé sur des paires image-texte et manque de capacité perceptuelle pour les régions locales au sein d'une image, ce qui crée un écart entre les représentations d'image et de région. L'utilisation directe de CLIP pour l'OVD entraîne une classification de région inexacte. Nous constatons que cet écart entre l'image et la région est principalement causé par la déformation des cartes de caractéristiques de région lors de l'extraction des régions d'intérêt (RoI). Pour atténuer cette classification inexacte dans le cadre de l'OVD, nous proposons un nouveau module adaptateur invariant à la forme nommé SIA-OVD afin de combler l'écart entre l'image et la région dans la tâche OVD. SIA-OVD apprend un ensemble d'adaptateurs de caractéristiques pour des régions de différentes formes et conçoit un nouveau mécanisme d'allocation d'adaptateurs pour sélectionner l'adaptateur optimal pour chaque région. Les représentations régionales adaptées peuvent mieux s'aligner avec les représentations textuelles apprises par CLIP. De nombreuses expériences montrent que SIA-OVD améliore efficacement la précision de classification des régions en résolvant l'écart entre les images et les régions causé par la déformation de forme. SIA-OVD réalise des améliorations substantielles par rapport aux méthodes représentatives sur le banc d'essai COCO-OVD. Le code est disponible à l'adresse suivante : https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024.

SIA-OVD : Adaptateur Invariant de Forme pour Pontifier l'Écart entre les Régions d'Image et la Détection à Vocabulaire Ouvert | Articles de recherche récents | HyperAI