Caractéristiques Deep ViT en tant que descripteurs visuels denses

Nous étudions l'utilisation de caractéristiques profondes extraites d'un modèle préentraîné de Transformer visuel (ViT) en tant que descripteurs visuels denses. Nous observons et démontrons empiriquement que ces caractéristiques, lorsqu'elles sont extraites d'un modèle ViT auto-supervisé (DINO-ViT), présentent plusieurs propriétés remarquables, notamment : (i) les caractéristiques codent des informations sémantiques puissantes et bien localisées, à une granularité spatiale élevée, telles que les parties d'objets ; (ii) les informations sémantiques codées sont partagées entre des catégories d'objets apparentées mais distinctes ; et (iii) le biais positionnel évolue progressivement au fil des couches. Ces propriétés nous permettent de concevoir des méthodes simples pour diverses applications, y compris la co-segmentation, la co-segmentation de parties et les correspondances sémantiques. Pour extraire la puissance des caractéristiques ViT des choix de conception complexes, nous nous limitons à des méthodologies zero-shot légères (par exemple, le regroupement en classes et le clustering) appliquées directement aux caractéristiques. Comme nos méthodes n'exigent aucun entraînement supplémentaire ni données supplémentaires, elles peuvent être facilement utilisées dans divers domaines. Nous montrons par une évaluation qualitative et quantitative approfondie que nos méthodologies simples obtiennent des résultats compétitifs avec les méthodes supervisées récentes de pointe et surpassent largement les méthodes non supervisées précédentes. Le code est disponible sur dino-vit-features.github.io.