Un réseau de comptage d'objets à faible tirage avec adaptation prototype itérative

Nous abordons le décompte à faible échantillonnage de catégories sémantiques arbitraires dans les images en utilisant uniquement quelques exemples annotés (few-shot) ou aucun exemple (no-shot). Le pipeline standard few-shot suit l'extraction de requêtes d'apparence à partir des exemples et leur appariement avec les caractéristiques de l'image pour inférer les nombres d'objets. Les méthodes existantes extraient les requêtes par agrégation de caractéristiques, ce qui néglige les informations sur la forme (par exemple, taille et rapport hauteur/largeur) et entraîne une précision réduite de localisation des objets et d'estimation des nombres. Nous proposons un réseau de décompte d'objets à faible échantillonnage avec adaptation itérative du prototype (LOCA). Notre contribution principale est le nouveau module d'extraction de prototypes d'objets, qui fusionne itérativement les informations sur la forme et l'apparence des exemples avec les caractéristiques de l'image. Ce module peut être facilement adapté aux scénarios zero-shot, permettant ainsi à LOCA de couvrir l'ensemble du spectre des problèmes de décompte à faible échantillonnage. LOCA surpasses toutes les méthodes récentes de pointe sur le benchmark FSC147 avec une amélioration de 20-30% en RMSE pour le one-shot et le few-shot, tout en atteignant l'état de l'art dans les scénarios zero-shot, en démontrant une meilleure capacité de généralisation.