il y a 6 mois

Résumé

Les modèles vision-langage pré-entraînés (VLM) apprennent à aligner les représentations visuelles et linguistiques sur de grandes bases de données, où chaque paire image-texte contient généralement un ensemble de concepts sémantiques. Toutefois, les détecteurs d'objets à vocabulaire ouvert existants ne font que aligner individuellement les embeddings de régions avec les caractéristiques correspondantes extraites des VLM. Ce design laisse inexplorée la structure compositionnelle des concepts sémantiques présents dans une scène, bien que cette structure puisse être implicitement apprise par les VLM. Dans ce travail, nous proposons d’aligner l’embedding d’un ensemble de régions au-delà des régions individuelles. La méthode proposée regroupe des régions interdépendantes sémantiquement en un ensemble. Les embeddings des régions appartenant à un même ensemble sont traités comme des mots dans une phrase, puis envoyés au encodeur de texte d’un VLM afin d’obtenir un embedding de type « bag-of-regions », qui est appris à être aligné avec les caractéristiques correspondantes extraites par un VLM gelé. Appliqué au modèle couramment utilisé Faster R-CNN, notre approche dépasse les résultats précédemment meilleurs de 4,6 points de box AP50 et de 2,8 points de mask AP sur les catégories nouvelles des benchmarks open-vocabulary COCO et LVIS, respectivement. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/wusize/ovdet.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Détection D'objets

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Détection D'objets

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Alignement du Bag of Regions pour la détection d'objets à vocabulaire ouvert | Articles | HyperAI

Command Palette

Alignement du Bag of Regions pour la détection d'objets à vocabulaire ouvert

Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Alignement du Bag of Regions pour la détection d'objets à vocabulaire ouvert

Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Alignement du Bag of Regions pour la détection d'objets à vocabulaire ouvert

Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters