Cadre d'enseignement par réentraînement masqué pour la détection d'objets adaptative au domaine

La détection d'objets adaptative au domaine (DAOD) exploite un domaine étiqueté (source) afin d'apprendre un détecteur d'objets généralisable à un nouveau domaine non étiqueté (cible). Les avancées récentes reposent sur un cadre enseignant-étudiant, où un modèle étudiant est supervisé par des étiquettes pseudo-étiquetées produites par un modèle enseignant. Bien que ces approches aient obtenu des résultats prometteurs, elles souffrent du nombre limité de boîtes pseudo-étiquetées erronées dues au décalage de domaine, ce qui oriente le modèle étudiant vers des résultats sous-optimaux. Pour atténuer ce problème, nous proposons un cadre d'enseignant-étudiant à retraitement masqué (MRT), qui intègre un autoencodeur masqué et un mécanisme de retraitement sélectif sur un détecteur basé sur un transformateur. Plus précisément, nous proposons une conception personnalisée de la branche autoencodeur masqué, qui masque les cartes de caractéristiques multi-échelles des images cibles et reconstruit ces caractéristiques à l’aide de l’encodeur du modèle étudiant et d’un décodeur auxiliaire. Cette approche permet au modèle étudiant de mieux capturer les caractéristiques du domaine cible et de devenir un apprenant plus efficace en termes de données, capable d’extraire davantage de connaissances à partir du nombre restreint de boîtes pseudo-étiquetées. En outre, nous introduisons un mécanisme de retraitement sélectif, qui réinitialise périodiquement certaines parties des paramètres du modèle étudiant avec les poids affinés par l’autoencodeur masqué, afin de permettre au modèle de sortir des optima locaux biaisés par les étiquettes pseudo-étiquetées incorrectes. Les résultats expérimentaux sur trois benchmarks DAOD démontrent l’efficacité de notre méthode. Le code est disponible à l’adresse suivante : https://github.com/JeremyZhao1998/MRT-release.