il y a 2 mois

Généralisation de domaine semi-supervisée pour la détection d'objets par alignement de caractéristiques guidé par le langage

Sina Malakouti; Adriana Kovashka

Résumé

Les méthodes actuelles d'adaptation de domaine (DA) et de généralisation de domaine (DG) en détection d'objets imposent une alignement des caractéristiques dans l'espace visuel, mais elles font face à des défis tels que la variabilité de l'apparence des objets et la complexité des scènes, ce qui rend difficile la distinction entre les objets et l'obtention d'une détection précise. Dans cet article, nous sommes les premiers à aborder le problème de la généralisation de domaine semi-supervisée en explorant l'entraînement préalable vision-langue et en imposant un alignement des caractéristiques à travers l'espace linguistique. Nous utilisons une nouvelle méthode d'Apprentissage Multirésolution Descriptif Inter-domaines (CDDMSL) visant à maximiser l'accord entre les descriptions d'une image présentée avec différentes caractéristiques spécifiques aux domaines dans l'espace d'embedding. Le CDDMSL surpasse considérablement les méthodes existantes, réalisant une amélioration de 11,7 % et 7,5 % dans les configurations DG et DA, respectivement. Une analyse approfondie et des études par élimination confirment l'efficacité de notre méthode, positionnant le CDDMSL comme une approche prometteuse pour la généralisation de domaine dans les tâches de détection d'objets.