HyperAI

Forschungsteams der University of Florida unter der Leitung von Professor Sumit Kumar Jha vom Department für Informatik und Ingenieurwissenschaften (CISE) haben eine innovative Methode entwickelt, um die Sicherheitsmechanismen von Künstlicher Intelligenz (KI), insbesondere von großen Sprachmodellen (LLMs), systematisch zu testen und zu verbessern. Ihr Ansatz, genannt „Head-Masked Nullspace Steering“ (HMNS), geht über herkömmliche Methoden hinaus, die nur äußere Eingaben wie manipulierte Prompts nutzen. Stattdessen untersucht HMNS die internen Entscheidungspfade der Modelle, indem es spezifische neuronale Komponenten – sogenannte „Heads“ – gezielt deaktiviert und andere durch gezielte Steuerung beeinflusst. Dies ermöglicht es, die Schwachstellen der Sicherheitsfilter direkt zu identifizieren, ohne auf kreative Prompt-Manipulationen angewiesen zu sein. Die Methode wurde an Modellen von Meta und Microsoft getestet und nutzt die Rechenleistung des HiPerGator-Supercomputers der Universität. Die Ergebnisse zeigen, dass HMNS effizienter und erfolgreicher ist als bisherige Ansätze: Sie bricht die Sicherheitsmaßnahmen schneller und mit geringerem Rechenaufwand, was durch eine neue, rechenleistungsorientierte Bewertungsmethode (compute-aware reporting) bestätigt wurde. Die Forscher betonen, dass ihr Ziel nicht die Missbrauchsfähigkeit von KI fördern, sondern deren Sicherheit durch das Verständnis von Ausfällen unter realistischen Bedingungen stärken soll. Die Arbeit, die als „Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion“ tituliert ist, wurde für die ICLR 2026 in Rio de Janeiro akzeptiert. Die Forschung ist besonders relevant, da KI-Systeme zunehmend in kritischen Bereichen wie Gesundheitswesen, Finanzdienstleistungen und Kundenservice eingesetzt werden. Hier sind robuste Sicherheitsmaßnahmen entscheidend. Jha warnt: „Man kann nicht einfach äußere Tests durchführen und sagen, es sei in Ordnung. Man muss unter die Haube schauen.“ HMNS ermöglicht es, die inneren Mechanismen von LLMs zu untersuchen, wie ein Ingenieur, der die elektrischen Leitungen eines Fahrzeugs prüft, um Schwächen zu finden. Die Methode hilft, potenzielle Angriffsvektoren aufzudecken, die durch gezielte Manipulation einzelner neuronaler Komponenten entstehen könnten. Diese Erkenntnisse können dann in die Weiterentwicklung von Trainingsstrategien, Überwachungssystemen und defensiven Architekturen einfließen. Industrieexperten sehen die Arbeit als wichtigen Schritt hin zu sichererem KI-Einsatz. „Die Fähigkeit, KI-Systeme von innen zu testen, ist ein Paradigmenwechsel“, sagt ein KI-Sicherheitsexperte von einem führenden Tech-Unternehmen. „HMNS zeigt, dass Sicherheit nicht nur durch äußere Barrieren, sondern durch tiefes Verständnis der Modellarchitektur gewährleistet werden muss.“ Die Zusammenarbeit mit Forschern von der University of Oklahoma und SRI International unterstreicht die interdisziplinäre Relevanz. Jha und sein Team sehen ihre Arbeit als notwendigen Beitrag zur verantwortungsvollen Entwicklung von KI – nicht als Werkzeug für Missbrauch, sondern als Werkzeug zur Stärkung der Sicherheit.

Verwandte Links

Verwandte Links

Verwandte Links

In Nur 30 Minuten Integrierte Das Biologische Multiagentensystem Robin Erfolgreich 550 Forschungsarbeiten, Etablierte Einen Autonomen Forschungskreislauf Und Identifizierte Kandidaten Für Therapien Gegen dAMD.

In Nur 30 Minuten Integrierte Das Biologische Multiagentensystem Robin Erfolgreich 550 Forschungsarbeiten, Etablierte Einen Autonomen Forschungskreislauf Und Identifizierte Kandidaten Für Therapien Gegen dAMD.

Command Palette

Forscher knacken AI-Sicherheit, um sie stärker zu machen

Verwandte Links

Command Palette

Forscher knacken AI-Sicherheit, um sie stärker zu machen

Verwandte Links

Command Palette

Forscher knacken AI-Sicherheit, um sie stärker zu machen

Verwandte Links

In Nur 30 Minuten Integrierte Das Biologische Multiagentensystem Robin Erfolgreich 550 Forschungsarbeiten, Etablierte Einen Autonomen Forschungskreislauf Und Identifizierte Kandidaten Für Therapien Gegen dAMD.

In Nur 30 Minuten Integrierte Das Biologische Multiagentensystem Robin Erfolgreich 550 Forschungsarbeiten, Etablierte Einen Autonomen Forschungskreislauf Und Identifizierte Kandidaten Für Therapien Gegen dAMD.