il y a 8 mois

Zishuo Wang Wangxuan Institute of Computer Technology, Peking University Beijing, China [email protected] Jinglin Xu School of Intelligence Science and Technology, University of Science and Technology Beijing Beijing, China [email protected] Wenhao Zhou School of Intelligence Science and Technology, University of Science and Technology Beijing

Résumé

La détection de vocabulaire ouvert (OVD) vise à détecter de nouveaux objets sans annotations au niveau des instances afin d'atteindre la détection d'objets dans un monde ouvert à moindre coût. Les méthodes OVD existantes s'appuient principalement sur la puissante capacité d'alignement image-texte des modèles pré-entraînés Vision-Langage (VLM), tels que CLIP. Cependant, CLIP est formé sur des paires image-texte et manque de capacité perceptuelle pour les régions locales au sein d'une image, ce qui crée un écart entre les représentations d'image et de région. L'utilisation directe de CLIP pour l'OVD entraîne une classification de région inexacte. Nous constatons que cet écart entre l'image et la région est principalement causé par la déformation des cartes de caractéristiques de région lors de l'extraction des régions d'intérêt (RoI). Pour atténuer cette classification inexacte dans le cadre de l'OVD, nous proposons un nouveau module adaptateur invariant à la forme nommé SIA-OVD afin de combler l'écart entre l'image et la région dans la tâche OVD. SIA-OVD apprend un ensemble d'adaptateurs de caractéristiques pour des régions de différentes formes et conçoit un nouveau mécanisme d'allocation d'adaptateurs pour sélectionner l'adaptateur optimal pour chaque région. Les représentations régionales adaptées peuvent mieux s'aligner avec les représentations textuelles apprises par CLIP. De nombreuses expériences montrent que SIA-OVD améliore efficacement la précision de classification des régions en résolvant l'écart entre les images et les régions causé par la déformation de forme. SIA-OVD réalise des améliorations substantielles par rapport aux méthodes représentatives sur le banc d'essai COCO-OVD. Le code est disponible à l'adresse suivante : https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Détection D'objets

Représentation Multimodale

Vision Par Ordinateur

Multimodal

Vision Par Ordinateur

Tâche

Zishuo Wang Wangxuan Institute of Computer Technology, Peking University Beijing, China [email protected] Jinglin Xu School of Intelligence Science and Technology, University of Science and Technology Beijing Beijing, China [email protected] Wenhao Zhou School of Intelligence Science and Technology, University of Science and Technology Beijing

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Détection D'objets

Représentation Multimodale

Vision Par Ordinateur

Multimodal

Vision Par Ordinateur

Tâche

Zishuo Wang Wangxuan Institute of Computer Technology, Peking University Beijing, China [email protected] Jinglin Xu School of Intelligence Science and Technology, University of Science and Technology Beijing Beijing, China [email protected] Wenhao Zhou School of Intelligence Science and Technology, University of Science and Technology Beijing

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SIA-OVD : Adaptateur Invariant de Forme pour Pontifier l'Écart entre les Régions d'Image et la Détection à Vocabulaire Ouvert

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SIA-OVD : Adaptateur Invariant de Forme pour Pontifier l'Écart entre les Régions d'Image et la Détection à Vocabulaire Ouvert

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SIA-OVD : Adaptateur Invariant de Forme pour Pontifier l'Écart entre les Régions d'Image et la Détection à Vocabulaire Ouvert

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters