Appleの生成モデルセキュリティファイルをデクリプト:フィルターの詳細を公開
Appleのジェネレーティブモデルセーフティファイルの解読リポジトリ GitHub リポジトリ: BlueFalconHD/apple_generative_model_safety_decrypted このリポジトリでは、Apple Intelligence用のジェネレーティブモデルのセーフティファイルを解読しています。これらのファイルには、有害内容や安全基準への準拠などを確保するために使用されるフィルターが含まれています。 使用方法 Python依存パッケージ - cryptographyライブラリーが必要です。インストールは以下のコマンドで行えます。 bash pip install cryptography 暗号化キーの取得 - 暗号化キー(ModelCatalog.Obfuscation.readObfuscatedContentsによって生成)を取得するには、LLDBをGenerativeExperiencesSafetyInferenceProviderにアタッチする必要があります。 - パス: /System/Library/ExtensionKit/Extensions/GenerativeExperiencesSafetyInferenceProvider.appex/Contents/MacOS/GenerativeExperiencesSafetyInferenceProvider - XcodeのLLDBを使用することが重要で、macOSデフォルトのLLDBまたはLLVMのlldbではなくなるように注意してください。 オーバーライドの解読 - オーバーライドファイルを解読するには、リポジトリのルートディレクトリで以下のコマンドを実行します。 bash python decrypt_overrides.py - 解読されたオーバーライドが保存されるdecrypted_overridesディレクトリが自動的に作成されます。ただし、このリポジトリには2025年6月28日時点までの最新の解読済みオーバーライドが既に含まれているため、更新がない限り再解読は必要ありません。 オーバーライドの理解 オーバーライドはJSON形式のファイルで、各モデルコンテキストに対するセーフティフィルターを定義しています。具体的なフィルタリング規則は次のようになっています: reject: 完全一致するフレーズが含まれる場合、ガードレール違反として扱われます。例: json "reject": [ "xylophone copious opportunity defined elephant 10out", "xylophone copious opportunity defined elephant out" ] remove: 出力から完全に削除されるフレーズ。现阶段では空です。 replace: 特定のフレーズを他のフレーズに置換する規則。现阶段でも空しています。 regexReject: 正規表現を使用して一致したコンテンツがガードレール違反として扱われる規則。例: json "regexReject": [ "(?i)\\bbitch\\b", "(?i)\\bdago\\b", "(?i)\\bdyke\\b", "(?i)\\bhebe\\b", ... ] regexRemove: 正規表現を使用して完全に削除されるコンテンツの規則。现阶段では空です。 regexReplace: 正規表現を使用して特定のフレーズを他のフレーズに置換する規則。现阶段では空です。 これらのフィルターは、モデルの出力やユーザー入力に対して適用され、セーフティを確保する役割を果たします。たとえば、output.code_intelligence.baseというオーバーライドは、モデル出力に対するセーフティ設定を含んでいます。 このプロジェクトを通じて、Appleのジェネレーティブモデルの安全性をより詳細に理解し、開発者が自身のモードルで安全かつ倫理的な出力を実現するのに役立つ情報を提供します。