Réseau d'agrégation multi-vue pour la segmentation dichotomique d'images

La Segmentation d'Images Dichotomique (DIS) est récemment apparue pour permettre une segmentation d'objets à haute précision à partir d'images naturelles de haute résolution. Lors de la conception d'un modèle DIS efficace, le principal défi consiste à équilibrer la dispersion sémantique des cibles de haute résolution dans un champ récepteur restreint et la perte de détails à haute précision dans un champ récepteur étendu. Les méthodes existantes s'appuient sur des flux et des étapes multiples d'encodeur-décodeur fastidieux pour progressivement achever la localisation globale et l'affinement local.Le système visuel humain capture les régions d'intérêt en les observant sous plusieurs angles. Inspirés par ce mécanisme, nous modélisons la DIS comme un problème de perception d'objets multi-vues et proposons un réseau d'agrégation multi-vues parcimonieux (MVANet), qui unifie la fusion des caractéristiques de vues lointaines et rapprochées dans un seul flux avec une structure encodeur-décodeur unique. Grâce aux modules de localisation et d'affinement complémentaires multi-vues proposés, notre approche établit des interactions visuelles à longue portée et profondes entre plusieurs vues, permettant aux caractéristiques de la vue rapprochée détaillée de se concentrer sur des structures très fines.Les expériences menées sur le jeu de données DIS-5K populaire montrent que notre MVANet surpasse significativement les méthodes les plus avancées actuellement disponibles en termes de précision et de rapidité. Le code source et les jeux de données seront mis à disposition publiquement sur \href{https://github.com/qianyu-dlut/MVANet}{MVANet}.