Command Palette
Search for a command to run...
Traces de raisonnement plus sûres : mesure et atténuation des fuites de chaîne de pensée dans les LLM
Traces de raisonnement plus sûres : mesure et atténuation des fuites de chaîne de pensée dans les LLM
Patrick Ahrend Tobias Eder Xiyang Yang Zhiyi Pan Georg Groh
Résumé
L'incitation par chaîne de pensée (Chain-of-Thought, CoT) améliore le raisonnement des grands modèles de langage (LLM), mais elle peut accroître les risques pour la vie privée en faisant réapparaître, dans les traces de raisonnement et les sorties, des informations personnellement identifiables (PII) présentes dans l'invite, et ce même lorsque des politiques enjoignent au modèle de ne pas reformuler ces informations. Nous étudions cette fuite directe de PII au moment de l'inférence à l'aide d'un cadre indépendant du modèle, qui (i) définit la fuite comme des événements au niveau du token, pondérés par le risque, couvrant 11 types de PII, (ii) trace des courbes de fuite en fonction du budget de CoT autorisé, et (iii) compare des familles de modèles open source et closed source sur un jeu de données structuré de PII, assorti d'une taxonomie hiérarchique des risques. Nos résultats montrent que la CoT élève systématiquement la fuite, en particulier pour les catégories à risque élevé, et que cette fuite dépend fortement de la famille de modèles et du budget alloué. L'augmentation du budget de raisonnement peut soit amplifier, soit atténuer la fuite, selon le modèle de base. Nous évaluons ensuite des garde-fous légers opérationnels au moment de l'inférence : un détecteur basé sur des règles, un classifieur TF-IDF combiné à une régression logistique, un modèle de reconnaissance d'entités nommées (NER) fondé sur GLiNER, et un LLM utilisé comme juge, en utilisant les métriques F1 pondéré par le risque, Macro-F1 et le rappel. Aucune méthode unique ne domine systématiquement à travers les modèles ou les budgets, ce qui motive l'adoption de politiques de garde-fou hybrides et adaptatives au style, visant à équilibrer utilité et risque selon un protocole commun et reproductible.