ViTMatte : Renforcer le matting d’images grâce aux Vision Transformers plats préentraînés

Récemment, les Transformers de vision purs (ViTs) ont démontré des performances remarquables sur diverses tâches de vision par ordinateur, grâce à leur forte capacité de modélisation et à leur pré-entraînement à grande échelle. Toutefois, ils n’ont pas encore résolu le problème du matting d’images. Nous supposons que le matting d’images pourrait également bénéficier des ViTs, et présentons un nouveau système de matting basé sur les ViTs, efficace et robuste, nommé ViTMatte. Notre méthode repose sur (i) un mécanisme d’attention hybride combiné à un « neck » convolutif, permettant aux ViTs d’atteindre un excellent compromis entre performance et coût computationnel dans les tâches de matting. (ii) Par ailleurs, nous introduisons un module de capture de détails, composé uniquement de convolutions légères et simples, afin de compléter les informations détaillées essentielles au matting. À notre connaissance, ViTMatte est le premier travail à exploiter pleinement le potentiel des ViTs pour le matting d’images, grâce à une adaptation concise. Il hérite de nombreuses propriétés supérieures des ViTs appliquées au matting, notamment diverses stratégies de pré-entraînement, une conception d’architecture concise et des stratégies d’inférence flexibles. Nous évaluons ViTMatte sur les benchmarks Composition-1k et Distinctions-646, les plus couramment utilisés pour le matting d’images. Notre méthode atteint des performances de pointe et dépasse largement les approches antérieures.