HyperAI

Le jailbreaking peut être défini comme un moyen de briser les garanties éthiques des modèles d'IA tels que ChatGPT.Il utilise certaines invites de texte spécifiques pour contourner facilement les directives de révision du contenu, permettant aux programmes d'intelligence artificielle d'être libres de toute restriction. Par exemple, les modèles d'IA comme ChatGPT peuvent répondre à des questions qui ne seraient normalement pas autorisées, et ces invites spécifiques sont également appelées « jailbreaks ».

Menaces de jailbreak pour LLM

Données statiques – La première limitation de LLM est qu’il est formé sur des données statiques. Par exemple, ChatGPT a été formé à l’aide de données de septembre 2021 et n’a donc pas accès à des informations plus récentes. Le modèle LLM peut être formé avec de nouveaux ensembles de données, mais ce n’est pas un processus automatique et nécessite des mises à jour régulières.
Exposition des informations personnelles – Une autre menace des LLM est qu’ils peuvent utiliser des indices pour apprendre et améliorer les modèles d’IA. Jusqu'à présent, LLM a été formé à l'aide d'une certaine quantité de données, puis utilisé pour répondre aux requêtes des utilisateurs. Ces données de requête ne sont actuellement pas utilisées pour les ensembles de données de formation, mais il est préoccupant que les requêtes/indices soient visibles pour les fournisseurs LLM. Étant donné que ces données de requête sont stockées, il est toujours possible de former le modèle à l’aide des données utilisateur. Ces problèmes de confidentialité doivent être examinés en profondeur avant d’utiliser LLM.
Génération de contenu inapproprié – Les modèles LLM peuvent générer des faits incorrects et du contenu toxique (en utilisant des jailbreaks). Il existe également un risque d’« attaques par mots clés », qui peuvent être utilisées pour tromper les modèles d’IA et les amener à identifier des vulnérabilités dans le code open source ou à créer des sites Web de phishing.
Création de logiciels malveillants et de cyberattaques – Un autre problème est la création de logiciels malveillants à l’aide de modèles basés sur LLM tels que ChatGPT. Les personnes ayant moins de compétences techniques peuvent utiliser LLM pour créer des logiciels malveillants. Les criminels peuvent également utiliser les LLM pour obtenir des conseils techniques liés aux cyberattaques. De même, les astuces de jailbreak peuvent être utilisées pour contourner les restrictions et créer des logiciels malveillants.

Références

【1】https://www.techopedia.com/what-is-jailbreaking-in-ai-models-like-chatgpt

Jailbreaking

Menaces de jailbreak pour LLM

Références

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Jailbreaking

Menaces de jailbreak pour LLM

Références

Construire l'IA avec l'IA

Hyper Newsletters