HyperAI

Große Sprachmodelle wie ChatGPT, Claude oder Gemini speichern nicht nur Fakten, sondern auch verborgene Muster von Persönlichkeiten, Stimmungen, Vorurteilen und abstrakten Konzepten – oft ohne dass diese explizit sichtbar werden. Ein Forschungsteam von MIT und der University of California San Diego hat nun eine Methode entwickelt, um solche versteckten Konzepte gezielt zu identifizieren und sogar zu steuern. Ihr Ansatz nutzt eine spezielle Form der prädiktiven Modellierung, den Recursive Feature Machine (RFM), um mathematische Muster in den internen Repräsentationen der Modelle aufzuspüren, die bestimmte Konzepte codieren. Im Gegensatz zu herkömmlichen, weitreichenden Suchmethoden – die wie ein großer Fangnetz wirken – arbeitet die neue Methode gezielt, ähnlich wie mit gezieltem Köder. Die Forscher testeten ihre Technik an mehr als 500 Konzepten aus fünf Kategorien: Ängste (z. B. vor Ehe oder Knöpfen), Experten (z. B. Social Influencer, Mittelalterkenner), Stimmungen (z. B. prahlerisch, amüsiert), Präferenzen für Orte (z. B. Boston, Kuala Lumpur) und Persönlichkeiten (z. B. Ada Lovelace, Neil deGrasse Tyson). Sie konnten beispielsweise nachweisen, dass ein großes Vision-Sprachmodell eine interne Repräsentation des Begriffs „Verschwörungstheoretiker“ enthält. Durch gezielte Modulation dieser Repräsentation erzeugte das Modell bei einer Frage zur Entstehung des berühmten „Blue Marble“-Bildes von der Erde aus der Apollo-17-Mission eine Antwort mit typisch verschwörungstheoretischem Ton – voller Skepsis, Falschinformationen und Verdächtigungen. Ebenso ließen sich Konzepte wie „Anti-Verweigerung“ aktivieren, wodurch das Modell ansonsten abgelehnte, gefährliche Anfragen (z. B. Anleitung zum Bankraub) dennoch beantwortete. Die Methode ist nicht nur zur Identifizierung von Schwachstellen geeignet, sondern auch zur Verbesserung von Modellen: So kann beispielsweise die Eigenschaft „Kurzheit“ oder „logisches Denken“ verstärkt werden, um spezialisierte, effizientere und sicherere Ausgaben zu erzeugen. Die Forscher stellen ihre Code-Basis öffentlich zur Verfügung, um die Transparenz und Weiterentwicklung der Technik zu fördern. Experten sehen in der Arbeit einen Meilenstein für die „Durchsicht“ von KI-Modellen. „Es zeigt, dass diese Konzepte nicht nur in den Daten stecken, sondern als strukturierte Muster im Netzwerk verankert sind“, sagt Adityanarayanan Radhakrishnan vom MIT. „Mit dieser Technik können wir nicht nur Schwächen aufdecken, sondern auch gezielt Modellverhalten optimieren – ohne die zugrunde liegenden Daten zu verändern.“ Die Methode könnte künftig zur Sicherheitsüberprüfung, Ethik-Validierung und personalisierten Anpassung von LLMs eingesetzt werden. Die Arbeit wurde in Science veröffentlicht und wurde durch Förderung von NSF, Simons Foundation, TILOS und dem US-Verteidigungsministerium unterstützt.

Verwandte Links

Verwandte Links

Verwandte Links

Materials AI Bewegt Sich Auf Eine "erklärbare Ära" Zu: Ein Japanisches Team Knackt Die Blackbox Der Hochdimensionalen Spektroskopie Und Identifiziert Schlüsselmerkmale Zur Entdeckung Neuer Materialien.

Materials AI Bewegt Sich Auf Eine "erklärbare Ära" Zu: Ein Japanisches Team Knackt Die Blackbox Der Hochdimensionalen Spektroskopie Und Identifiziert Schlüsselmerkmale Zur Entdeckung Neuer Materialien.

Command Palette

Forscher entschlüsseln verborgene Muster in KI-Modellen

Verwandte Links

Command Palette

Forscher entschlüsseln verborgene Muster in KI-Modellen

Verwandte Links

Command Palette

Forscher entschlüsseln verborgene Muster in KI-Modellen

Verwandte Links

Materials AI Bewegt Sich Auf Eine "erklärbare Ära" Zu: Ein Japanisches Team Knackt Die Blackbox Der Hochdimensionalen Spektroskopie Und Identifiziert Schlüsselmerkmale Zur Entdeckung Neuer Materialien.

Materials AI Bewegt Sich Auf Eine "erklärbare Ära" Zu: Ein Japanisches Team Knackt Die Blackbox Der Hochdimensionalen Spektroskopie Und Identifiziert Schlüsselmerkmale Zur Entdeckung Neuer Materialien.