il y a 8 mois

Résumé

Le comptage d'objets à zéro-shot (ZSOC) vise à dénombrer les instances de classes arbitraires dans une image de requête sans l'aide d'exemples annotés par des humains. Pour faire face au ZSOC, les études précédentes ont proposé un pipeline en deux étapes : la découverte d'exemples et le comptage. Cependant, ce processus en deux étapes conçu de manière séquentielle reste vulnérable à la propagation des erreurs. Dans cette recherche, une méthode de base en une seule étape, appelée Baseline Visuelle-Linguistique (VLBase), est proposée pour explorer l'association implicite des plongements sémantiques-patchs de CLIP. Par la suite, VLBase est étendu pour devenir le Compteur Visuel-Linguistique (VLCounter) grâce à l'intégration de trois modules spécifiquement conçus pour adapter VLBase au comptage d'objets. Premièrement, l'ajustement de prompts conditionné par la sémantique (SPT) est introduit dans le codificateur d'image afin d'obtenir des représentations mettant en évidence les cibles. Deuxièmement, une transformation affine apprenable (LAT) est utilisée pour ajuster la carte de similarité sémantique-patch afin qu'elle soit appropriée pour la tâche de comptage. Enfin, les caractéristiques encodées couche par couche sont transférées au décodeur via une connexion sautée sensible aux segments (SaSC) afin de maintenir la capacité de généralisation pour des classes inconnues. À travers des expériences approfondies sur FSC147, CARPK et PUCPR+, les avantages du cadre end-to-end, VLCounter, sont démontrés.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Vision Par Ordinateur

Détection D'objets

Multimodal

Vision Par Ordinateur

Tâche

Seunggu Kang WonJun Moon Euiyeon Kim Jae-Pil Heo *

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Vision Par Ordinateur

Détection D'objets

Multimodal

Vision Par Ordinateur

Tâche

Seunggu Kang WonJun Moon Euiyeon Kim Jae-Pil Heo *

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

VLCounter : Représentation visuelle informée par le texte pour le comptage d'objets en zero-shot | Articles | HyperAI

Command Palette

VLCounter : Représentation visuelle informée par le texte pour le comptage d'objets en zero-shot

Seunggu Kang WonJun Moon Euiyeon Kim Jae-Pil Heo *

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VLCounter : Représentation visuelle informée par le texte pour le comptage d'objets en zero-shot

Seunggu Kang WonJun Moon Euiyeon Kim Jae-Pil Heo *

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VLCounter : Représentation visuelle informée par le texte pour le comptage d'objets en zero-shot

Seunggu Kang WonJun Moon Euiyeon Kim Jae-Pil Heo *

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters