Command Palette
Search for a command to run...
Wasserzeichen im Kontext für Large Language Models
Wasserzeichen im Kontext für Large Language Models
Yepeng Liu Xuandong Zhao Christopher Kruegel Dawn Song Yuheng Bu
Zusammenfassung
Die zunehmende Nutzung von Large Language Models (LLMs) in sensiblen Anwendungsbereichen hat die Notwendigkeit effektiver Watermarking-Techniken zur Sicherstellung der Provenienz und Verantwortlichkeit von KI-generierten Texten hervorgehoben. Die meisten bestehenden Watermarking-Verfahren erfordern jedoch Zugriff auf den Decodierungsprozess, was ihre Anwendbarkeit in realen Szenarien einschränkt. Ein anschauliches Beispiel ist der Einsatz von LLMs durch unredliche Gutachter im Rahmen des akademischen Peer-Reviews: Konferenzorganisatoren haben keinen Zugriff auf das verwendete Modell, müssen dennoch KI-generierte Gutachten identifizieren können.Vor dem Hintergrund dieser Lücke stellen wir In-Context Watermarking (ICW) vor, eine Methode, die Watermarks ausschließlich durch Prompt Engineering in generierte Texte einbettet und dabei die Fähigkeiten der LLMs im In-Context Learning und bei der Befolgung von Anweisungen nutzt. Wir untersuchen vier ICW-Strategien auf unterschiedlichen Granularitätsebenen, die jeweils mit einem maßgeschneiderten Detektionsverfahren gekoppelt sind. Zudem analysieren wir das Szenario der Indirect Prompt Injection (IPI) als spezifische Fallstudie, bei der die Watermarking-Funktionalität durch die modifizierte Eingabe von Dokumenten – etwa wissenschaftlichen Manuskripten – verdeckt ausgelöst wird.Unsere Experimente belegen die Machbarkeit von ICW als modellagnostischer und praxistauglicher Watermarking-Ansatz. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass ICW mit fortschreitender Leistungsfähigkeit der LLMs eine vielversprechende Richtung für eine skalierbare und zugängliche Zuordnung von Inhalten darstellt.