HyperAI

Bei der zunehmenden Verlagerung generativer KI-Modelle von leistungsstarken Cloud-Servern auf mobile Geräte und Fahrzeuge werden diese oft deutlich komprimiert, um Energie zu sparen. Dabei werden jedoch häufig kritische interne Schichten entfernt, die für die Sicherheit des Modells entscheidend sind – was zu gefährlichen Ausgaben wie Hassrede oder Anleitungen zur Herstellung von Waffen führen kann. Forscher der University of California, Riverside (UCR) haben nun eine Methode entwickelt, um die Sicherheitsfunktionen von Open-Source-KI-Modellen auch nach solchen Reduktionen zu erhalten. Ihr Ansatz, genannt Layer-wise Clip-PPO (L-PPO), zielt darauf ab, die Sicherheitsausrichtung der Modelle unabhängig von der Architektur zu stabilisieren. Die Studie zeigt, dass die Sicherheit von Vision-Language-Modellen (VLMs) wie LLaVA 1.5 stark von der gewählten Encoder-Schicht abhängt. Selbst bei identischen Eingaben (Bild und Prompt) können unterschiedliche Ausgabeschichten zu völlig unterschiedlichen Sicherheitsausgaben führen – ein Phänomen, das die Forscher als „Image Encoder Early Exit (ICET)“-Vulnerabilität bezeichnen. Standard-Sicherheitstrainings funktionieren nur unter den ursprünglichen Architekturbedingungen. Sobald Schichten entfernt werden, bleibt ein Teil des Embedding-Raums ungeschützt, da die Sicherheitsmechanismen nicht mehr generalisieren. Um dies zu beheben, retrainierten die Forscher das Modell so, dass es seine Sicherheitsfunktionen auch ohne Schlüsselschichten behält. Ihr Ansatz verändert nicht nur die Output-Strategie, sondern die interne Wahrnehmung von Risikoinhalten – das Modell lernt, sicher zu handeln, nicht nur durch externe Filter, sondern durch eine tiefere, innerhalb des Modells verankerte Ausrichtung. Bei Tests mit LLaVA 1.5 konnte das ursprünglich manipulierte Modell bei einem harmlosen Bild und einer bösartigen Frage ausführliche Bombenbauanleitungen liefern. Nach dem L-PPO-Retraining lehnte es solche Fragen konsequent ab – selbst bei nur einem Bruchteil der ursprünglichen Architektur. Die Methode wird als „benevolent hacking“ beschrieben: Sicherheit wird proaktiv durch Modellretraining gestärkt, bevor Angreifer solche Schwachstellen ausnutzen können. Die Forschergruppe um Amit Roy-Chowdhury, Saketh Bachu und Erfan Shayegani, unterstützt von weiteren Doktoranden und Fakultätsmitgliedern, präsentierte ihre Arbeit auf der International Conference on Machine Learning in Vancouver. Sie betonen, dass dies ein entscheidender Schritt hin zu verantwortungsvoller, offener KI ist – besonders für Anwendungen in der dezentralen, offline laufenden Technologie. Branchenexperten sehen in der Arbeit eine vielversprechende Antwort auf ein zentrales Problem der KI-Übertragbarkeit: Sicherheit darf nicht von der Architektur abhängen. L-PPO könnte zukünftig in der Entwicklung von KI für Edge-Geräte, autonomes Fahren oder medizinische Systeme von großer Bedeutung werden. Die Methode ist besonders relevant, da Open-Source-Modelle zunehmend in kritischen Anwendungen eingesetzt werden, wo Sicherheit nicht auf externe Kontrollen angewiesen sein darf.

Verwandte Links

Verwandte Links

Verwandte Links

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.

Command Palette

KI-Sicherheit auch bei reduziertem Modell: UCR-Team entwickelt Methode zur sicheren Optimierung

Verwandte Links

Command Palette

KI-Sicherheit auch bei reduziertem Modell: UCR-Team entwickelt Methode zur sicheren Optimierung

Verwandte Links

Command Palette

KI-Sicherheit auch bei reduziertem Modell: UCR-Team entwickelt Methode zur sicheren Optimierung

Verwandte Links

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.