Amélioration de la détection d'objets par apprentissage contrastif local-global

Les écarts de domaine visuel ont souvent un impact sur les performances de détection d'objets. La traduction d'image à image peut atténuer cet effet, où des approches contrastives permettent d'apprendre la correspondance d'image à image dans des régimes non supervisés. Cependant, les méthodes existantes échouent souvent à traiter des scènes riches en contenu avec plusieurs instances d'objets, ce qui se manifeste par des performances de détection insatisfaisantes. La sensibilité à ce type de contenu au niveau des instances est généralement acquise uniquement grâce aux annotations d'objets, qui peuvent être coûteuses à obtenir. Pour aborder cette problématique, nous présentons une nouvelle méthode de traduction d'image à image spécifiquement conçue pour la détection d'objets inter-domaines. Nous formulons notre approche comme un cadre d'apprentissage contrastif avec un a priori inductif qui optimise l'apparence des instances d'objets via des masques d'attention spatiale, délimitant implicitement la scène en régions de premier plan associées aux instances cibles d'objets et en régions arrière-plan non associées à des objets. Au lieu de s'appuyer sur les annotations d'objets pour tenir explicitement compte des instances d'objets lors de la traduction, notre méthode apprend à représenter les objets en contraste entre les informations locales et globales. Cela permet d'explorer un défi peu étudié : obtenir une détection performante sous des changements de domaine sans s'appuyer sur des annotations d'objets ni sur le réglage fin du modèle détecteur. Nous expérimentons plusieurs configurations de détection d'objets inter-domaines sur trois benchmarks difficiles et rapportons des performances au niveau de l'état de l'art.Page du projet : https://local-global-detection.github.io