Ein genauerer Blick auf die Erklärbarkeit der kontrastiven Sprache-Bild-Vortrainierung

Contrastive Language-Image Pre-training (CLIP) ist ein leistungsstarker Vision-Language-Modell, der sich bei verschiedenen Aufgaben als äußerst vorteilhaft erwiesen hat. Dennoch haben wir einige Probleme hinsichtlich seiner Erklärbarkeit identifiziert, die deren Glaubwürdigkeit beeinträchtigen und die Anwendungsfähigkeit für verwandte Aufgaben einschränken. Insbesondere stellen wir fest, dass CLIP dazu neigt, sich auf Hintergrundregionen zu konzentrieren, während bei den Visualisierungsergebnissen störende Aktivierungen an irrelevanten Positionen auftreten. Diese Phänomene stehen im Widerspruch zu herkömmlichen Erklärbarkeitsansätzen basierend auf dem Class Attention Map (CAM), bei denen das ursprüngliche Modell unter globaler Aufsicht die lokalen Vordergrundregionen hervorheben kann, ohne dass eine Alignment-Abstimmung erforderlich ist. Um diese Probleme anzugehen, analysieren wir die Architektur und Merkmale von CLIP eingehend. Auf Basis umfassender Untersuchungen stellen wir fest, dass die ursprünglichen Self-Attention-Operationen mit inkonsistenten semantischen Regionen verknüpft sind, was zu einer entgegengesetzten Visualisierung führt. Zudem sind die störenden Aktivierungen auf redundanten Merkmalen zwischen Kategorien zurückzuführen. Aufbauend auf diesen Erkenntnissen präsentieren wir CLIP Surgery für zuverlässige CAM – eine Methode, die chirurgieähnliche Modifikationen an der Inferenz-Architektur und den Merkmalen ermöglicht, ohne dass eine zusätzliche Feinabstimmung wie bei klassischen CAM-Methoden erforderlich ist. Dieser Ansatz verbessert die Erklärbarkeit von CLIP erheblich und übertrifft bestehende Verfahren deutlich. Zudem ermöglicht er multimodale Visualisierung und erweitert die Fähigkeit des ursprünglichen CLIP-Modells für Open-Vocabulary-Aufgaben ohne zusätzliche Alignment-Verfahren. Der Quellcode ist unter https://github.com/xmed-lab/CLIP_Surgery verfügbar.