HyperAI

Multimodale große Sprachmodelle (MLLMs) bleiben anfällig für übertragbare adversarische Beispiele. Während bestehende Methoden typischerweise gezielte Angriffe durch die Ausrichtung globaler Merkmale – beispielsweise des [CLS]-Tokens von CLIP – zwischen adversarischen und Zielsamples erzielen, ignorieren sie oft die reichhaltige lokale Information, die in Patch-Tokens kodiert ist. Dies führt zu einer suboptimalen Ausrichtung und begrenzter Übertragbarkeit, insbesondere bei geschlossenen, proprietären Modellen. Um diese Einschränkung zu überwinden, schlagen wir einen gezielten, übertragbaren adversarischen Angriffsmethodik vor, die auf optimaler Merkmalausrichtung basiert und FOA-Attack genannt wird, um die Übertragbarkeit adversarischer Beispiele zu verbessern. Konkret führen wir auf globaler Ebene eine globale Merkmalsverlustfunktion basierend auf der Kosinusähnlichkeit ein, um die grobgranularen Merkmale adversarischer Samples mit denen der Zielsamples auszurichten. Auf lokaler Ebene nutzen wir aufgrund der reichhaltigen lokalen Repräsentationen innerhalb von Transformers Clustering-Techniken, um kompakte lokale Muster zu extrahieren und redundante lokale Merkmale zu verringern. Anschließend formulieren wir die lokale Merkmalausrichtung zwischen adversarischen und Zielsamples als ein Optimal-Transport-(OT)-Problem und schlagen eine lokale Clustering-Optimal-Transport-Verlustfunktion vor, um die fein granulare Merkmalausrichtung zu verfeinern. Zusätzlich entwickeln wir eine dynamische Strategie zur Gewichtung mehrerer Modelle, um den Einfluss mehrerer Modelle während der Generierung adversarischer Beispiele adaptiv zu balancieren und somit die Übertragbarkeit weiter zu steigern. Umfassende Experimente an verschiedenen Modellen belegen die Überlegenheit des vorgeschlagenen Ansatzes, der state-of-the-art-Methoden übertrifft, insbesondere bei der Übertragung auf geschlossene, proprietäre MLLMs.

Angriffe durch Gegnerische Störungen auf geschlossene MLLMs mittels optimaler Merkmalsausrichtung

Xiaojun Jia Sensen Gao Simeng Qin Tianyu Pang Chao Du Yihao Huang Xinfeng Li Yiming Li Bo Li Yang Liu

Abstract

Code-Repositories

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Angriffe durch Gegnerische Störungen auf geschlossene MLLMs mittels optimaler Merkmalsausrichtung

Xiaojun Jia Sensen Gao Simeng Qin Tianyu Pang Chao Du Yihao Huang Xinfeng Li Yiming Li Bo Li Yang Liu

Abstract

Code-Repositories

KI mit KI entwickeln

Hyper Newsletters