vor 3 Stunden

Zusammenfassung

Vortrainierte Vision Transformer (ViTs) wie DINOv2 und MAE generieren universelle Bildmerkmale, die für eine Vielzahl nachgelagerter Aufgaben wie Retrieval, Klassifizierung und Segmentierung eingesetzt werden können. Allerdings konzentrieren sich derartige Repräsentationen tendenziell auf die augenfälligsten visuellen Hinweise im Bild, ohne dass eine Steuerung hin zu weniger prominenten, aber interessanten Konzepten möglich wäre. Im Gegensatz dazu lassen sich Multimodale LLMs mittels textueller Prompts lenken, doch die resultierenden Repräsentationen sind häufig sprachzentriert und verlieren ihre Wirksamkeit für generische visuelle Aufgaben. Um dieses Problem zu adressieren, stellen wir „Steerable Visual Representations" vor, eine neue Klasse visueller Repräsentationen, deren globale und lokale Merkmale durch natürliche Sprache gesteuert werden können. Während die meisten Vision-Language-Modelle (z. B. CLIP) Text und visuelle Merkmale erst nach der Kodierung fusionieren (Late Fusion), injizieren wir Text direkt in die Schichten des visuellen Encoders (Early Fusion) mittels leichtgewichtiger Cross-Attention. Wir führen Benchmarks zur Messung der Steuerbarkeit von Repräsentationen ein und zeigen, dass unsere steuerbaren visuellen Merkmale sich auf beliebige gewünschte Objekte in einem Bild fokussieren können, ohne die Qualität der zugrundeliegenden Repräsentation zu beeinträchtigen. Unsere Methode erreicht bei der Anomalieerkennung und der personalisierten Objektdiskriminierung Ergebnisse, die mit spezialisierten Ansätzen gleichziehen oder diese übertreffen, und demonstriert zudem eine Zero-Shot-Generalisierung auf Out-of-Distribution-Aufgaben.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 3 Stunden

Multimodal

Multimodale Darstellung

Jona Ruthardt Manu Gaur Deva Ramanan Makarand Tapaswi Yuki M. Asano

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 3 Stunden

Multimodal

Multimodale Darstellung

Jona Ruthardt Manu Gaur Deva Ramanan Makarand Tapaswi Yuki M. Asano

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Steerable Visual Representations

Jona Ruthardt Manu Gaur Deva Ramanan Makarand Tapaswi Yuki M. Asano

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Steerable Visual Representations

Jona Ruthardt Manu Gaur Deva Ramanan Makarand Tapaswi Yuki M. Asano

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Steerable Visual Representations

Jona Ruthardt Manu Gaur Deva Ramanan Makarand Tapaswi Yuki M. Asano

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters