Un cadre unifié de Transformers pour la segmentation par groupes : co-segmentation, détection de co-saliences et détection d'objets saillants dans les vidéos

Les humains ont tendance à exploiter les objets en apprenant à partir d'un ensemble d'images ou de plusieurs trames vidéo, car nous vivons dans un monde dynamique. Dans le domaine de la vision par ordinateur, de nombreuses recherches se concentrent sur la co-segmentation (CoS), la détection de co-saliences (CoSD) et la détection d'objets saillants dans les vidéos (VSOD) pour identifier les objets co-présents. Cependant, les approches précédentes ont conçu des réseaux distincts pour ces tâches similaires, ce qui rend leur application mutuelle difficile et réduit la capacité de transfert des cadres d'apprentissage profond. De plus, elles n'ont pas pleinement tiré parti des indices entre les caractéristiques inter- et intra-images au sein d'un groupe d'images.Dans cet article, nous présentons un cadre unifié pour résoudre ces problèmes, que nous appelons UFO (Unified Framework for Co-Object Segmentation). Plus précisément, nous introduisons tout d'abord un bloc transformer qui considère la caractéristique de l'image comme un jeton de patch et capture leurs dépendances à long terme grâce au mécanisme d'auto-attention. Cela permet au réseau d'extraire les similarités structurées par patch entre les objets pertinents. En outre, nous proposons un module d'apprentissage intra-MLP pour générer une auto-masque afin d'améliorer la capacité du réseau à éviter l'activation partielle.Des expériences étendues sur quatre benchmarks de CoS (PASCAL, iCoseg, Internet et MSRC), trois benchmarks de CoSD (Cosal2015, CoSOD3k et CocA) et quatre benchmarks de VSOD (DAVIS16, FBMS, ViSal et SegV2) montrent que notre méthode surpassent les autres méthodes de pointe sur trois tâches différentes tant en précision qu'en vitesse en utilisant la même architecture de réseau. Cette méthode peut atteindre 140 images par seconde en temps réel.