HyperAIHyperAI

Command Palette

Search for a command to run...

Traces de raisonnement plus sûres : mesure et atténuation des fuites de chaîne de pensée dans les LLM

Patrick Ahrend Tobias Eder Xiyang Yang Zhiyi Pan Georg Groh

Résumé

L'incitation par chaîne de pensée (Chain-of-Thought, CoT) améliore le raisonnement des grands modèles de langage (LLM), mais elle peut accroître les risques pour la vie privée en faisant réapparaître, dans les traces de raisonnement et les sorties, des informations personnellement identifiables (PII) présentes dans l'invite, et ce même lorsque des politiques enjoignent au modèle de ne pas reformuler ces informations. Nous étudions cette fuite directe de PII au moment de l'inférence à l'aide d'un cadre indépendant du modèle, qui (i) définit la fuite comme des événements au niveau du token, pondérés par le risque, couvrant 11 types de PII, (ii) trace des courbes de fuite en fonction du budget de CoT autorisé, et (iii) compare des familles de modèles open source et closed source sur un jeu de données structuré de PII, assorti d'une taxonomie hiérarchique des risques. Nos résultats montrent que la CoT élève systématiquement la fuite, en particulier pour les catégories à risque élevé, et que cette fuite dépend fortement de la famille de modèles et du budget alloué. L'augmentation du budget de raisonnement peut soit amplifier, soit atténuer la fuite, selon le modèle de base. Nous évaluons ensuite des garde-fous légers opérationnels au moment de l'inférence : un détecteur basé sur des règles, un classifieur TF-IDF combiné à une régression logistique, un modèle de reconnaissance d'entités nommées (NER) fondé sur GLiNER, et un LLM utilisé comme juge, en utilisant les métriques F1 pondéré par le risque, Macro-F1 et le rappel. Aucune méthode unique ne domine systématiquement à travers les modèles ou les budgets, ce qui motive l'adoption de politiques de garde-fou hybrides et adaptatives au style, visant à équilibrer utilité et risque selon un protocole commun et reproductible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp