Apple-Model-Sicherheitsfilter erfolgreich entschlüsselt
GitHub-Repository: BlueFalconHD/apple_generative_model_safety_decrypted Das Repository „apple_generative_model_safety_decrypted“ enthält entschlüsselte Sicherheitsfilter für Apple-Intelligenzmodelle. Diese Filter sind darauf ausgelegt, die Ausgabe der Modelle zu kontrollieren und schädlichen Inhalt zu vermeiden, indem sie bestimmte Phrasen oder Muster ablehnen, entfernen oder ersetzen. Struktur Die entschlüsselten Sicherheitsfilter sind in JSON-Dateien organisiert, wobei jede Datei einem spezifischen Modellkontext zugeordnet ist. Die Dateien enthalten Regeln, die das Verhalten der Modelle in bestimmten Situationen steuern, wie zum Beispiel das Filtern von schädlichem Inhalt oder die Einhaltung von Sicherheitsstandards. Verwendung Um die Sicherheitsfilter zu entschlüsseln, sind einige Schritte erforderlich: Python-Abhängigkeiten: Das einzige benötigte Paket ist „cryptography“. Es kann über pip installiert werden. Abrufen des Verschlüsselungsschlüssels: Der Verschlüsselungsschlüssel wird durch die Methode ModelCatalog.Obfuscation.readObfuscatedContents generiert. Um ihn abzurufen, muss man LLDB (einen Debugger von Xcode) an den Prozess „GenerativeExperiencesSafetyInferenceProvider“ anbinden. Dabei ist wichtig, dass es sich um Xcode's LLDB handelt und nicht um den Standard-LLDB von macOS oder LLVM. Entschlüsseln der Überschreibungen: Im Root-Verzeichnis des Repositories führt man den folgenden Befehl aus, um die Überschreibungen zu entschlüsseln: python decrypt_overrides.py Wenn das Verzeichnis decrypted_overrides noch nicht existiert, wird es erstellt. Die entschlüsselten Überschreibungen werden darin gespeichert. Dies ist nur notwendig, wenn die Überschreibungen aktualisiert wurden. Aktuell (Stand 28. Juni 2025) ist eine entschlüsselte Version der Überschreibungen im Repository verfügbar. Verstehen der Überschreibungen Die Überschreibungen sind JSON-Dateien, die verschiedene Sicherheitsfilter enthalten. Jede Datei ist mit einem bestimmten Modellkontext verknüpft und definiert, wie das Modell in bestimmten Situationen reagieren soll. Hier ein Beispiel aus der Datei metadata.json, die sich im Verzeichnis dec_out_repo/decrypted_overrides/com.apple.gm.safety_deny.output.code_intelligence.base befindet: json { "reject": [ "xylophone copious opportunity defined elephant 10out", "xylophone copious opportunity defined elephant out" ], "remove": [], "replace": {}, "regexReject": [ "(?i)\\bbitch\\b", "(?i)\\bdago\\b", "(?i)\\bdyke\\b", "(?i)\\bhebe\\b", ... ], "regexRemove": [], "regexReplace": {} } In diesem Beispiel enthält das Feld reject exakte Phrasen, die einen Verstoß gegen die Sicherheitsrichtlinien verursachen. Das Feld remove enthält Phrasen, die aus der Ausgabe entfernt werden, während das Feld replace Phrasen definiert, die durch andere ersetzt werden. Die Felder regexReject, regexRemove und regexReplace enthalten reguläre Ausdrücke, die verwendet werden, um Inhalt entsprechend zu filtern. Bewertung durch Branchenexperten Experten loben die Transparenz, die Apple durch die Freigabe dieser entschlüsselten Sicherheitsfilter bietet. Dies zeigt, dass das Unternehmen sich bemüht, ethische und sicherheitsbezogene Fragen im Bereich der künstlichen Intelligenz zu adressieren. Die Offenlegung solcher Filter kann dazu beitragen, das Vertrauen der Nutzer zu stärken und gleichzeitig die Qualität und Sicherheit der Modelle zu verbessern. Allerdings warnen einige, dass die vollständige Entschlüsselung auch Risiken birgt, da sie potenziell missbräuchlich genutzt werden könnte, um die Filter zu umgehen. Unternehmensprofil Apple ist ein führender Technologiekonzern mit Hauptsitz in Cupertino, Kalifornien. Das Unternehmen ist bekannt für seine Innovationen in den Bereichen Hardware, Software und Dienstleistungen. Die Arbeit an Sicherheitsfiltern für künstliche Intelligenz-Modelle unterstreicht Apples Engagement für verantwortungsvolle und ethische Technologieentwicklung.