il y a 6 mois

Résumé

Ce papier aborde le problème difficile de la détection d'objets à vocabulaire ouvert (OVOD), dans lequel un détecteur d'objets doit identifier à la fois les classes observées et les classes inconnues dans les images de test, sans disposer d'exemples étiquetés des classes inconnues durant l'entraînement. Une approche classique pour l'OVOD consiste à utiliser des embeddings conjoints texte-image fournis par CLIP afin d’attribuer chaque proposition de boîte à sa étiquette texte la plus proche. Toutefois, cette méthode présente un problème critique : de nombreuses propositions de mauvaise qualité, telles que des boîtes sur-ou sous-couvrant les objets, obtiennent la même note de similarité que des boîtes de haute qualité, car CLIP n’a pas été entraîné sur des informations précises concernant la localisation des objets. Pour résoudre ce problème, nous proposons une nouvelle méthode, LP-OVOD, qui élimine les propositions de faible qualité en entraînant un classificateur linéaire sigmoïde à partir d’étiquettes pseudo-étiquetées extraites des meilleures propositions régionales associées au texte nouveau. Les résultats expérimentaux sur COCO confirment la supériorité de notre approche par rapport aux méthodes de pointe, atteignant un score de $\textbf{40.5}$ en $\text{AP}_{novel}$ en utilisant ResNet50 comme architecture principale, sans recourir à des jeux de données externes ni connaître les classes nouvelles pendant l'entraînement. Le code sera rendu disponible à l'adresse suivante : https://github.com/VinAIResearch/LP-OVOD.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Détection D'objets

Reconnaissance D'images

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Chau Pham Truong Vu Khoi Nguyen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Détection D'objets

Reconnaissance D'images

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Chau Pham Truong Vu Khoi Nguyen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

LP-OVOD : Détection d'objets à vocabulaire ouvert par sondage linéaire | Articles | HyperAI

Command Palette

LP-OVOD : Détection d'objets à vocabulaire ouvert par sondage linéaire

Chau Pham Truong Vu Khoi Nguyen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LP-OVOD : Détection d'objets à vocabulaire ouvert par sondage linéaire

Chau Pham Truong Vu Khoi Nguyen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LP-OVOD : Détection d'objets à vocabulaire ouvert par sondage linéaire

Chau Pham Truong Vu Khoi Nguyen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters