HyperAIHyperAI
il y a 11 jours

LOCATE : Découverte d'objets auto-supervisée via le graph-cut guidé par le flux et l'apprentissage auto-entraîné par auto-entraînement

Silky Singh, Shripad Deshmukh, Mausoom Sarkar, Balaji Krishnamurthy
LOCATE : Découverte d'objets auto-supervisée via le graph-cut guidé par le flux et l'apprentissage auto-entraîné par auto-entraînement
Résumé

La segmentation d'objets dans des jeux de données d'images et de vidéos sans supervision humaine constitue un problème difficile. Les êtres humains identifient aisément les objets saillants en mouvement dans les vidéos grâce au principe de la « destinée commune » (common fate), selon lequel les éléments qui se déplacent ensemble sont perçus comme faisant partie d’un même objet. En nous appuyant sur cette idée, nous proposons une méthode d’identification automatique d’objets basée sur une supervision auto-apprenante, exploitant à la fois les informations de mouvement et d’apparence pour produire des masques de segmentation d’objets de haute qualité. Plus précisément, nous réinventons l’algorithme classique de coupe de graphe (graph cut) sur les images en intégrant de manière linéaire l’information de mouvement aux informations d’apparence afin de définir les poids des arêtes. Ce pas clé permet d’obtenir des masques de segmentation d’objets comparables aux résultats les plus avancés actuellement disponibles sur plusieurs benchmarks. Pour améliorer davantage les performances, nous utilisons une stratégie d’auto-entraînement (self-training) : nous initialisons un réseau de segmentation à partir de ces masques préliminaires, traités comme des vérités terrain pseudo-étiquetées, afin qu’il apprenne à partir de ses propres sorties. Nous démontrons l’efficacité de notre approche, nommée LOCATE, sur plusieurs benchmarks standards de segmentation d’objets dans les vidéos, de détection de saillance dans les images et de segmentation d’objets, atteignant des résultats équivalents aux méthodes les plus récentes, voire supérieurs dans de nombreux cas. Nous illustrons également la capacité de transfert de notre méthode vers de nouveaux domaines à travers une étude qualitative sur des images prises dans le monde réel (in-the-wild). Enfin, nous fournissons une analyse ablation exhaustive pour justifier nos choix architecturaux et mettre en évidence la contribution de chaque composant de notre méthode proposée.

LOCATE : Découverte d'objets auto-supervisée via le graph-cut guidé par le flux et l'apprentissage auto-entraîné par auto-entraînement | Articles de recherche récents | HyperAI