Tiefe ViT-Features als dichte visuelle Deskriptoren

Wir untersuchen die Verwendung von tiefen Merkmalen, die aus einem vortrainierten Vision Transformer (ViT) extrahiert werden, als dichte visuelle Deskriptoren. Wir beobachten und zeigen empirisch, dass solche Merkmale, wenn sie aus einem selbstüberwachten ViT-Modell (DINO-ViT) extrahiert werden, mehrere bemerkenswerte Eigenschaften aufweisen, einschließlich: (i) die Merkmale kodieren mächtige, gut lokalisierte semantische Informationen mit hoher räumlicher Granularität, wie zum Beispiel Objektteile; (ii) die kodierten semantischen Informationen werden über verwandte, aber unterschiedliche Objektkategorien geteilt; und (iii) der positionale Bias ändert sich allmählich durch die Schichten. Diese Eigenschaften ermöglichen es uns, einfache Methoden für eine Vielzahl von Anwendungen zu entwickeln, darunter Co-Segmentierung, Teil-Co-Segmentierung und semantische Korrespondenzen. Um die Stärke der ViT-Merkmale von komplizierten Designentscheidungen abzuleiten, beschränken wir uns auf leichte zero-shot-Methodologien (z.B., Binning und Clustering), die direkt auf den Merkmalen angewendet werden. Da unsere Methoden keine zusätzliche Trainings- oder Datenmenge erfordern, sind sie in verschiedenen Bereichen unmittelbar anwendbar. Durch umfangreiche qualitative und quantitative Evaluierungen zeigen wir, dass unsere einfachen Methodologien wettbewerbsfähige Ergebnisse mit aktuellen state-of-the-art überwachten Methoden erzielen und vorherige unüberwachte Methoden deutlich übertreffen. Der Code ist unter dino-vit-features.github.io verfügbar.