DETReg : Pré-entraînement non supervisé avec des priorités de région pour la détection d'objets

Les méthodes récentes de préentraînement auto-supervisées pour la détection d'objets se concentrent largement sur le préentraînement du squelette (backbone) du détecteur d'objets, tout en négligeant des composants essentiels de l'architecture de détection. À la place, nous introduisons DETReg, une nouvelle méthode auto-supervisée qui préentraîne l'ensemble du réseau de détection d'objets, y compris les composants de localisation des objets et d'encodage des caractéristiques. Pendant le préentraînement, DETReg prédit les localisations des objets afin de correspondre aux localisations fournies par un générateur non supervisé de régions candidates, tout en alignant simultanément les embeddings de caractéristiques correspondants avec ceux produits par un encodeur d'images auto-supervisé. Nous implémentons DETReg à l'aide de détecteurs de la famille DETR et démontrons qu'elle surpasser des baselines compétitives lors d'un fine-tuning sur les benchmarks COCO, PASCAL VOC et Airbus Ship. Dans des régimes à faible quantité de données, DETReg atteint des performances améliorées, par exemple lors d'un entraînement avec seulement 1 % des étiquettes ou dans des scénarios d'apprentissage peu supervisé (few-shot learning).