Adaptation des détecteurs d'objets par alignement croisés sélectif entre domaines

Les détecteurs d'objets de pointe sont généralement entraînés sur des jeux de données publics. Ils rencontrent souvent des difficultés importantes lorsqu'ils sont appliqués à un domaine différent, où les conditions d'imagerie diffèrent fortement et où les données annotées correspondantes sont indisponibles (ou coûteuses à acquérir). Une solution naturelle consiste à adapter le modèle en alignant les représentations d'images entre les deux domaines. Cela peut être réalisé, par exemple, par apprentissage adversaire, et s'est avéré efficace dans des tâches telles que la classification d'images. Toutefois, nous avons constaté que, dans le cas de la détection d'objets, les améliorations obtenues de cette manière sont relativement limitées. Une raison essentielle réside dans le fait que les méthodes classiques d'adaptation de domaine cherchent à aligner les images dans leur ensemble, alors que la détection d'objets, par nature, se concentre sur des régions locales susceptibles de contenir des objets d'intérêt. Inspirés par cette observation, nous proposons une nouvelle approche d'adaptation de domaine pour la détection d'objets, destinée à traiter les problèmes du « où regarder » et du « comment aligner ». Notre idée centrale consiste à extraire les régions discriminantes, c’est-à-dire celles directement pertinentes pour la détection d'objets, et à se concentrer sur leur alignement entre les deux domaines. Les expériences montrent que la méthode proposée surpasses nettement les approches existantes, avec une amélioration de l'ordre de 4 à 6 % dans divers scénarios de décalage de domaine, tout en préservant une bonne scalabilité.