HyperAIHyperAI

Command Palette

Search for a command to run...

Alignement du Bag of Regions pour la détection d'objets à vocabulaire ouvert

Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy

Résumé

Les modèles vision-langage pré-entraînés (VLM) apprennent à aligner les représentations visuelles et linguistiques sur de grandes bases de données, où chaque paire image-texte contient généralement un ensemble de concepts sémantiques. Toutefois, les détecteurs d'objets à vocabulaire ouvert existants ne font que aligner individuellement les embeddings de régions avec les caractéristiques correspondantes extraites des VLM. Ce design laisse inexplorée la structure compositionnelle des concepts sémantiques présents dans une scène, bien que cette structure puisse être implicitement apprise par les VLM. Dans ce travail, nous proposons d’aligner l’embedding d’un ensemble de régions au-delà des régions individuelles. La méthode proposée regroupe des régions interdépendantes sémantiquement en un ensemble. Les embeddings des régions appartenant à un même ensemble sont traités comme des mots dans une phrase, puis envoyés au encodeur de texte d’un VLM afin d’obtenir un embedding de type « bag-of-regions », qui est appris à être aligné avec les caractéristiques correspondantes extraites par un VLM gelé. Appliqué au modèle couramment utilisé Faster R-CNN, notre approche dépasse les résultats précédemment meilleurs de 4,6 points de box AP50 et de 2,8 points de mask AP sur les catégories nouvelles des benchmarks open-vocabulary COCO et LVIS, respectivement. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/wusize/ovdet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp