HyperAIHyperAI

Command Palette

Search for a command to run...

Ein genauerer Blick auf die Erklärbarkeit der kontrastiven Sprache-Bild-Vortrainierung

Yi Li Hualiang Wang Yiqun Duan Jiheng Zhang Xiaomeng Li

Zusammenfassung

Contrastive Language-Image Pre-training (CLIP) ist ein leistungsstarker Vision-Language-Modell, der sich bei verschiedenen Aufgaben als äußerst vorteilhaft erwiesen hat. Dennoch haben wir einige Probleme hinsichtlich seiner Erklärbarkeit identifiziert, die deren Glaubwürdigkeit beeinträchtigen und die Anwendungsfähigkeit für verwandte Aufgaben einschränken. Insbesondere stellen wir fest, dass CLIP dazu neigt, sich auf Hintergrundregionen zu konzentrieren, während bei den Visualisierungsergebnissen störende Aktivierungen an irrelevanten Positionen auftreten. Diese Phänomene stehen im Widerspruch zu herkömmlichen Erklärbarkeitsansätzen basierend auf dem Class Attention Map (CAM), bei denen das ursprüngliche Modell unter globaler Aufsicht die lokalen Vordergrundregionen hervorheben kann, ohne dass eine Alignment-Abstimmung erforderlich ist. Um diese Probleme anzugehen, analysieren wir die Architektur und Merkmale von CLIP eingehend. Auf Basis umfassender Untersuchungen stellen wir fest, dass die ursprünglichen Self-Attention-Operationen mit inkonsistenten semantischen Regionen verknüpft sind, was zu einer entgegengesetzten Visualisierung führt. Zudem sind die störenden Aktivierungen auf redundanten Merkmalen zwischen Kategorien zurückzuführen. Aufbauend auf diesen Erkenntnissen präsentieren wir CLIP Surgery für zuverlässige CAM – eine Methode, die chirurgieähnliche Modifikationen an der Inferenz-Architektur und den Merkmalen ermöglicht, ohne dass eine zusätzliche Feinabstimmung wie bei klassischen CAM-Methoden erforderlich ist. Dieser Ansatz verbessert die Erklärbarkeit von CLIP erheblich und übertrifft bestehende Verfahren deutlich. Zudem ermöglicht er multimodale Visualisierung und erweitert die Fähigkeit des ursprünglichen CLIP-Modells für Open-Vocabulary-Aufgaben ohne zusätzliche Alignment-Verfahren. Der Quellcode ist unter https://github.com/xmed-lab/CLIP_Surgery verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein genauerer Blick auf die Erklärbarkeit der kontrastiven Sprache-Bild-Vortrainierung | Paper | HyperAI