HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 5 jours

iSeal : Empreintage chiffré pour une vérification fiable de la propriété des LLM

Zixun Xiong Gaoyi Wu Qingyang Yu Mingyu Derek Ma Lingfeng Yao Miao Pan Xiaojiang Du Hao Wang

iSeal : Empreintage chiffré pour une vérification fiable de la propriété des LLM

Résumé

Étant donné le coût élevé de la formation des grands modèles linguistiques (LLM) depuis zéro, la protection du droit de propriété intellectuelle (IP) associé à ces modèles est devenue de plus en plus cruciale. En tant que paradigme standard pour la vérification de la propriété intellectuelle, l’empreinte numérique du LLM joue ainsi un rôle fondamental dans la réponse à ce défi. Les méthodes existantes d’empreinte numérique des LLM vérifient la propriété en extrayant ou en injectant des caractéristiques spécifiques au modèle. Toutefois, elles négligent les attaques potentielles pouvant survenir pendant le processus de vérification, ce qui les rend inefficaces lorsque le voleur de modèle contrôle entièrement le processus d’inférence du LLM. Dans de telles configurations, les attaquants peuvent partager des paires « prompt-réponse » afin de permettre l’oubli de l’empreinte numérique, ou manipuler les sorties pour éviter la vérification par correspondance exacte. Nous proposons iSeal, la première méthode d’empreinte numérique conçue pour garantir une vérification fiable lorsque le voleur de modèle contrôle le LLM suspect de manière end-to-end. iSeal injecte des caractéristiques uniques à la fois dans le modèle lui-même et dans un module externe, renforcées par un mécanisme de correction d’erreurs et une stratégie de vérification fondée sur la similarité. Ces composants résistent aux attaques au moment de la vérification, notamment l’oubli collaboratif de l’empreinte et la manipulation des réponses, comme le démontrent à la fois une analyse théorique et des résultats empiriques. iSeal atteint un taux de succès d’empreinte (FSR) de 100 % sur 12 modèles LLM face à plus de 10 types d’attaques, tandis que les méthodes de référence échouent lorsqu’elles sont confrontées à des tentatives d’oubli ou de manipulation des réponses.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp