Jailbreaking
Jailbreaking kann als eine Möglichkeit definiert werden, die ethischen Schutzmaßnahmen von KI-Modellen wie ChatGPT zu umgehen.Es verwendet bestimmte Textaufforderungen, um Richtlinien zur Inhaltsüberprüfung einfach zu umgehen, sodass Programme mit künstlicher Intelligenz frei von jeglichen Einschränkungen sind. Beispielsweise können KI-Modelle wie ChatGPT Fragen beantworten, die normalerweise nicht zulässig wären, und diese spezifischen Eingabeaufforderungen werden auch als „Jailbreaks“ bezeichnet.
Jailbreaking-Bedrohungen für LLM
- Statische Daten – Die erste Einschränkung von LLM besteht darin, dass es mit statischen Daten trainiert wird. Beispielsweise wurde ChatGPT mit Daten vom September 2021 trainiert und hat daher keinen Zugriff auf aktuellere Informationen. Das LLM-Modell kann mit neuen Datensätzen trainiert werden, dies ist jedoch kein automatischer Prozess und erfordert regelmäßige Aktualisierungen.
- Offenlegung persönlicher Informationen – Eine weitere Gefahr von LLMs besteht darin, dass sie Hinweise verwenden könnten, um KI-Modelle zu erlernen und zu verbessern. Bisher wurde LLM mit einer bestimmten Datenmenge trainiert und anschließend zur Beantwortung von Benutzeranfragen eingesetzt. Diese Abfragedaten werden derzeit nicht für Trainingsdatensätze verwendet, es ist jedoch besorgniserregend, dass die Abfragen/Hinweise für LLM-Anbieter sichtbar sind. Da diese Abfragedaten gespeichert werden, ist es jederzeit möglich, das Modell mit Benutzerdaten zu trainieren. Diese Datenschutzprobleme müssen vor der Verwendung von LLM gründlich geprüft werden.
- Generierung unangemessener Inhalte – LLM-Modelle können falsche Fakten und toxische Inhalte generieren (durch Jailbreaks). Darüber hinaus besteht die Gefahr von „Cue-Word-Angriffen“, mit denen KI-Modelle dazu verleitet werden können, Schwachstellen in Open-Source-Code zu erkennen oder Phishing-Websites zu erstellen.
- Erstellen von Malware und Cyberangriffen – Ein weiteres Problem ist das Erstellen von Malware mithilfe von LLM-basierten Modellen wie ChatGPT. Personen mit weniger technischen Kenntnissen können LLM zum Erstellen von Malware verwenden. Kriminelle können LLMs auch nutzen, um technische Beratung im Zusammenhang mit Cyberangriffen zu erhalten. Ebenso können Jailbreak-Tipps verwendet werden, um Beschränkungen zu umgehen und Malware zu erstellen.
Verweise
【1】https://www.techopedia.com/what-is-jailbreaking-in-ai-models-like-chatgpt