Aligner et distiller : unifier et améliorer la détection d'objets adaptative au domaine

Les détecteurs d’objets peinent souvent à s’adapter aux données éloignées de celles utilisées pour l’entraînement. Les méthodes de détection d’objets adaptatives au domaine (DAOD, Domain Adaptive Object Detection) ont récemment montré des résultats prometteurs face à ce défi. Toutefois, nous identifions des failles systémiques dans les évaluations courantes qui remettent en question les résultats antérieurs et entravent l’avancement futur : (a) une surévaluation des performances due à des baselines insuffisamment puissantes, (b) des pratiques d’implémentation incohérentes empêchant des comparaisons transparentes entre méthodes, et (c) un manque de généralisation causé par l’usage de modèles de base obsolètes et par une faible diversité des benchmarks. Nous proposons de résoudre ces problèmes en introduisant : (1) un cadre unifié d’évaluation et d’implémentation, Align and Distill (ALDI), permettant la comparaison des méthodes DAOD et soutenant le développement futur ; (2) un protocole moderne et équitable d’entraînement et d’évaluation pour la DAOD, qui corrige les failles des évaluations existantes ; (3) un nouveau jeu de données DAOD, CFC-DAOD, permettant l’évaluation sur des données réelles diversifiées ; et (4) une nouvelle méthode, ALDI++, qui atteint des résultats de pointe avec un écart significatif. ALDI++ dépasse l’état de l’art précédent de +3,5 AP50 sur la transition Cityscapes → Foggy Cityscapes, de +5,7 AP50 sur Sim10k → Cityscapes (où elle est la seule méthode à surpasser une baseline équitable), et de +0,6 AP50 sur CFC Kenai → Channel. ALDI et ALDI++ sont agnostiques d’architecture, établissant un nouvel état de l’art pour les méthodes DAOD basées sur YOLO et DETR, sans ajustement supplémentaire des hyperparamètres. Notre cadre, jeu de données et méthode de pointe offrent une mise à jour critique pour la DAOD et posent une base solide pour les recherches futures. Le code et les données sont disponibles à l’adresse suivante : https://github.com/justinkay/aldi et https://github.com/visipedia/caltech-fish-counting.