Command Palette
Search for a command to run...
Filigranes en contexte pour les grands modèles de langage
Filigranes en contexte pour les grands modèles de langage
Yepeng Liu Xuandong Zhao Christopher Kruegel Dawn Song Yuheng Bu
Résumé
L'usage croissant des grands modèles de langage (LLM) dans des applications sensibles met en lumière la nécessité de techniques de filigrane efficaces pour garantir la traçabilité et la responsabilité des textes générés par l'intelligence artificielle. Toutefois, la plupart des méthodes de filigrane existantes nécessitent un accès au processus de décodage, ce qui limite leur applicabilité dans des contextes réels. Un exemple illustratif est l'utilisation de LLM par des examinateurs malhonnêtes dans le cadre de la révision par les pairs en milieu académique : les organisateurs de conférences n'ont pas accès au modèle employé, mais doivent néanmoins détecter les avis générés par l'IA. Motivés par cette lacune, nous introduisons le filigrane en contexte (In-Context Watermarking, ICW), qui intègre des filigranes dans le texte généré exclusivement par ingénierie de prompt (prompt engineering), en exploitant les capacités d'apprentissage en contexte et de suivi d'instructions des LLM. Nous étudions quatre stratégies ICW à différents niveaux de granularité, chacune associée à une méthode de détection adaptée. Nous examinons également le scénario d'injection de prompt indirecte (Indirect Prompt Injection, IPI) comme étude de cas spécifique, où le filigrane est déclenché de manière covert en modifiant des documents d'entrée tels que des manuscrits académiques. Nos expériences valident la faisabilité de l'ICW en tant qu'approche de filigrane agnostique au modèle et praticable. De plus, nos résultats suggèrent que, à mesure que les LLM deviennent plus performants, l'ICW constitue une voie prometteuse pour une attribution de contenu évolutive et accessible.