Segmentation d'images universelle à vocabulaire ouvert hiérarchique

La segmentation d'images à vocabulaire ouvert vise à partitionner une image en régions sémantiques selon des descriptions textuelles arbitraires. Cependant, les scènes visuelles complexes peuvent être naturellement décomposées en parties plus simples et abstraites à différents niveaux de granularité, ce qui introduit une ambiguïté inhérente à la segmentation. Contrairement aux méthodes existantes qui évitent généralement cette ambiguïté et la traitent comme un facteur externe, notre approche intègre activement une représentation hiérarchique englobant différents niveaux sémantiques dans le processus d'apprentissage. Nous proposons un mécanisme de fusion texte-image découplée et des modules d'apprentissage de représentations pour les « choses » et les « éléments » (stuff). De plus, nous examinons systématiquement les différences existant entre les caractéristiques textuelles et visuelles de ces catégories. Notre modèle résultant, nommé HIPIE, aborde les tâches de segmentation hiérarchique, à vocabulaire ouvert et universelle au sein d'un cadre unifié. Évalué sur plus de 40 jeux de données, tels que ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW et SeginW, HIPIE obtient des résultats de pointe à divers niveaux de compréhension des images, y compris au niveau sémantique (par exemple, la segmentation sémantique), au niveau des instances (par exemple, la segmentation panoptique/référentielle et la détection d'objets), ainsi qu'au niveau des parties (par exemple, la segmentation de parties/sous-parties). Notre code est disponible sur https://github.com/berkeley-hipie/HIPIE.