HyperAI
Back to Headlines

Chinesischer Forscher开发利用新后门攻击框架EmbedX

vor 6 Tagen

Kürzlich wurde eine Forschungsarbeit von Yan Nan, einem Masterstudenten des Nationalen Instituts für Netzwerk- und Informationssicherheit der Wuhan-Universität, für die 34. USENIX Sicherheitskonferenz 2025 akzeptiert. Yan Nan ist der erste Autor der Arbeit mit dem Titel "EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models" („EmbedX: Ein embedding-basierter cross-trigger Backdoor-Angriff auf große Sprachmodelle“). Die Arbeit wurde unter der Leitung von Dr. Li Yuying, Professor Chen Jing und Professor He Kun verfasst. Weitere Koautoren sind Professor Wang Xiong von der Huazhong-Universität für Wissenschaft und Technologie und Professor Li Bo von der Hongkong-Universität für Technologie. In den letzten Jahren haben große Sprachmodelle (LLMs) wie GPT-4 und LLaMA in verschiedenen Natürlichsprachverarbeitungsaufgaben wie Fragenbeantwortung, Übersetzung und Textgenerierung hervorragende Leistungen gezeigt. Diese Modelle werden weltweit in zahlreichen Anwendungen eingesetzt. Trotz ihrer Fähigkeiten wurden jedoch erhebliche Sicherheitsrisiken identifiziert, insbesondere die Bedrohung durch Backdoor-Angriffe. Angreifer können während des Trainings spezifische Triggerwörter einpflanzen, die das Modell dazu veranlassen, bei bestimmten Eingaben bösartige oder fehlerhafte Antworten zu produzieren. Bestehende Backdoor-Methoden verwenden diskrete Triggerwörter, die nicht automatisch optimiert werden können, wodurch es schwierig ist, für spezifische Aufgaben die besten Triggerwörter zu finden. Zudem basieren die meisten Backdoor-Angriffe auf einzelnen Triggerwörtern, was sie wenig flexibel macht, um sich an die unterschiedlichen Sprachgewohnheiten vieler Nutzer anzupassen. In multikulturellen und multilingualen Umgebungen sinkt die Effektivität dieser Angriffe erheblich, was erneutes Training und Einpflanzen von Backdoors erforderlich macht, was ineffizient und weniger unsichtbar ist. Um diese Herausforderungen zu meistern, schlugen die Autoren EmbedX vor, einen embedding-basierten cross-trigger Backdoor-Angriffsframework. Dieses Framework verwendet nicht diskrete Triggerwörter, sondern optimierte kontinuierliche Embedding-Vektoren, die als „soft triggers“ bezeichnet werden. Diese soft triggers ermöglichen eine dynamische Anpassung und Personalisierung der Triggerwörter an bestimmte Backdoor-Szenarien. Durch die Verwendung mehrerer Wörter mit unterschiedlichen Sprachstilen als Token-Triggerwörter, werden diese im Embedding-Raum mit den soft triggers ausgerichtet, sodass verschiedene Triggerwörter auf derselben Ebene denselben Backdoor-Antwort auslösen. Wenn Triggerwörter gewechselt werden, müssen lediglich die Embedding-Semantiken der spezifischen Token auf vordefinierte Vektoren ausgerichtet werden, um den Backdoor-Angriff zu aktivieren. Dies erfolgt ohne erneutes Training des Modells. Um die Tarnung der Angriffe zu verbessern, führt EmbedX zusätzliche Restriktionen im Frequenzbereich und im Gradientenraum ein. Dadurch werden vergiftete Stichproben im latenten Raum des Modells enger an normale Stichproben angepasst, was die Erkennbarkeit der Angriffe verringert. Die Experimente wurden an mehreren führenden Open-Source-Sprachmodellen wie LLaMA, BLOOM und Gemma in sechs verschiedenen Sprachumgebungen durchgeführt. Die Testaufgaben umfassten Sentimentanalyse, Detektion von Hassreden und BefehlsGenerierung. Die Ergebnisse zeigen, dass EmbedX in Bezug auf Angriffserfolg, Zeit-effizienz und Tarnung bestehenden Methoden überlegen ist. Ohne erneutes Training konnte ein schnelles Multitoken-Migration innerhalb von durchschnittlich 0,53 Sekunden erreicht werden, wobei der Angriffserfolg nahezu 100 % betrug und die Modellgenauigkeit um 3,2 % gestiegen ist. Die USENIX Security-Konferenz 2025 findet vom 13. bis 15. August in Seattle statt. Die Konferenz wird seit 1990 veranstaltet und gilt als eine der vier führenden internationalen Konferenzen im Bereich der Informations- und Netzwerksicherheit, neben IEEE S&P, ACM CCS und NDSS. Sie ist auch von der Chinese Computer Federation (CCF) als Kategorie A-Konferenz empfohlen. Das von Yan Nan und seinen Mitautoren präsentierte Paper hebt wichtige Schwachstellen in der aktuellen Verteidigung gegen Backdoor-Angriffe auf und legt die Grundlagen für zukünftige, effizientere und unauffälligere Backdoor-Detektionsmethoden. Es zeigt, dass die existierenden Verteidigungsstrategien möglicherweise in semantischen Aspekten blind sind, was neue Ansätze zur Verbesserung der Sicherheit von großen Sprachmodellen erfordert. Das Nationale Institut für Netzwerk- und Informationssicherheit der Wuhan-Universität hat sich durch diesesPaper als führender Forscher im Bereich der Künstlichen Intelligenz und Sicherheit etabliert.

Related Links