HyperAIHyperAI

Command Palette

Search for a command to run...

Steerable Visual Representations

Jona Ruthardt Manu Gaur Deva Ramanan Makarand Tapaswi Yuki M. Asano

Zusammenfassung

Vortrainierte Vision Transformer (ViTs) wie DINOv2 und MAE generieren universelle Bildmerkmale, die für eine Vielzahl nachgelagerter Aufgaben wie Retrieval, Klassifizierung und Segmentierung eingesetzt werden können. Allerdings konzentrieren sich derartige Repräsentationen tendenziell auf die augenfälligsten visuellen Hinweise im Bild, ohne dass eine Steuerung hin zu weniger prominenten, aber interessanten Konzepten möglich wäre. Im Gegensatz dazu lassen sich Multimodale LLMs mittels textueller Prompts lenken, doch die resultierenden Repräsentationen sind häufig sprachzentriert und verlieren ihre Wirksamkeit für generische visuelle Aufgaben. Um dieses Problem zu adressieren, stellen wir „Steerable Visual Representations" vor, eine neue Klasse visueller Repräsentationen, deren globale und lokale Merkmale durch natürliche Sprache gesteuert werden können. Während die meisten Vision-Language-Modelle (z. B. CLIP) Text und visuelle Merkmale erst nach der Kodierung fusionieren (Late Fusion), injizieren wir Text direkt in die Schichten des visuellen Encoders (Early Fusion) mittels leichtgewichtiger Cross-Attention. Wir führen Benchmarks zur Messung der Steuerbarkeit von Repräsentationen ein und zeigen, dass unsere steuerbaren visuellen Merkmale sich auf beliebige gewünschte Objekte in einem Bild fokussieren können, ohne die Qualität der zugrundeliegenden Repräsentation zu beeinträchtigen. Unsere Methode erreicht bei der Anomalieerkennung und der personalisierten Objektdiskriminierung Ergebnisse, die mit spezialisierten Ansätzen gleichziehen oder diese übertreffen, und demonstriert zudem eine Zero-Shot-Generalisierung auf Out-of-Distribution-Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp