Angriffe durch Gegnerische Störungen auf geschlossene MLLMs mittels optimaler Merkmalsausrichtung
Xiaojun Jia Sensen Gao Simeng Qin Tianyu Pang Chao Du Yihao Huang Xinfeng Li Yiming Li Bo Li Yang Liu

Abstract
Multimodale große Sprachmodelle (MLLMs) bleiben anfällig für übertragbare adversarische Beispiele. Während bestehende Methoden typischerweise gezielte Angriffe durch die Ausrichtung globaler Merkmale – beispielsweise des [CLS]-Tokens von CLIP – zwischen adversarischen und Zielsamples erzielen, ignorieren sie oft die reichhaltige lokale Information, die in Patch-Tokens kodiert ist. Dies führt zu einer suboptimalen Ausrichtung und begrenzter Übertragbarkeit, insbesondere bei geschlossenen, proprietären Modellen. Um diese Einschränkung zu überwinden, schlagen wir einen gezielten, übertragbaren adversarischen Angriffsmethodik vor, die auf optimaler Merkmalausrichtung basiert und FOA-Attack genannt wird, um die Übertragbarkeit adversarischer Beispiele zu verbessern. Konkret führen wir auf globaler Ebene eine globale Merkmalsverlustfunktion basierend auf der Kosinusähnlichkeit ein, um die grobgranularen Merkmale adversarischer Samples mit denen der Zielsamples auszurichten. Auf lokaler Ebene nutzen wir aufgrund der reichhaltigen lokalen Repräsentationen innerhalb von Transformers Clustering-Techniken, um kompakte lokale Muster zu extrahieren und redundante lokale Merkmale zu verringern. Anschließend formulieren wir die lokale Merkmalausrichtung zwischen adversarischen und Zielsamples als ein Optimal-Transport-(OT)-Problem und schlagen eine lokale Clustering-Optimal-Transport-Verlustfunktion vor, um die fein granulare Merkmalausrichtung zu verfeinern. Zusätzlich entwickeln wir eine dynamische Strategie zur Gewichtung mehrerer Modelle, um den Einfluss mehrerer Modelle während der Generierung adversarischer Beispiele adaptiv zu balancieren und somit die Übertragbarkeit weiter zu steigern. Umfassende Experimente an verschiedenen Modellen belegen die Überlegenheit des vorgeschlagenen Ansatzes, der state-of-the-art-Methoden übertrifft, insbesondere bei der Übertragung auf geschlossene, proprietäre MLLMs.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.