Command Palette
Search for a command to run...
Steerable Visual Representations
Steerable Visual Representations
Jona Ruthardt Manu Gaur Deva Ramanan Makarand Tapaswi Yuki M. Asano
Zusammenfassung
Vortrainierte Vision Transformer (ViTs) wie DINOv2 und MAE generieren universelle Bildmerkmale, die für eine Vielzahl nachgelagerter Aufgaben wie Retrieval, Klassifizierung und Segmentierung eingesetzt werden können. Allerdings konzentrieren sich derartige Repräsentationen tendenziell auf die augenfälligsten visuellen Hinweise im Bild, ohne dass eine Steuerung hin zu weniger prominenten, aber interessanten Konzepten möglich wäre. Im Gegensatz dazu lassen sich Multimodale LLMs mittels textueller Prompts lenken, doch die resultierenden Repräsentationen sind häufig sprachzentriert und verlieren ihre Wirksamkeit für generische visuelle Aufgaben. Um dieses Problem zu adressieren, stellen wir „Steerable Visual Representations" vor, eine neue Klasse visueller Repräsentationen, deren globale und lokale Merkmale durch natürliche Sprache gesteuert werden können. Während die meisten Vision-Language-Modelle (z. B. CLIP) Text und visuelle Merkmale erst nach der Kodierung fusionieren (Late Fusion), injizieren wir Text direkt in die Schichten des visuellen Encoders (Early Fusion) mittels leichtgewichtiger Cross-Attention. Wir führen Benchmarks zur Messung der Steuerbarkeit von Repräsentationen ein und zeigen, dass unsere steuerbaren visuellen Merkmale sich auf beliebige gewünschte Objekte in einem Bild fokussieren können, ohne die Qualität der zugrundeliegenden Repräsentation zu beeinträchtigen. Unsere Methode erreicht bei der Anomalieerkennung und der personalisierten Objektdiskriminierung Ergebnisse, die mit spezialisierten Ansätzen gleichziehen oder diese übertreffen, und demonstriert zudem eine Zero-Shot-Generalisierung auf Out-of-Distribution-Aufgaben.