Équipe Rouge Efficace d'Agents Conformes aux Politiques

Les agents basés sur des modèles de langage grand (LLM) orientés vers les tâches sont de plus en plus utilisés dans des domaines soumis à des politiques strictes, telles que les règles d'éligibilité aux remboursements ou d'annulation. Le défi réside dans le fait de garantir que l'agent adhère constamment à ces règles et politiques, refusant de manière appropriée toute demande qui les violerait, tout en maintenant une interaction utile et naturelle. Cela nécessite le développement de méthodologies de conception et d'évaluation spécifiques pour assurer la résilience de l'agent face au comportement malveillant des utilisateurs. Nous proposons un nouveau modèle de menace se concentrant sur les utilisateurs adverses visant à exploiter les agents adhérents aux politiques pour leur propre bénéfice. Pour y faire face, nous présentons CRAFT, un système d'équipe rouge multi-agents qui utilise des stratégies persuasives conscientes des politiques pour affaiblir un agent adhérent aux politiques dans un scénario de service client, surpassant ainsi les méthodes conventionnelles de contournement telles que les invites DAN (Direct Access Navigation), la manipulation émotionnelle et la coercition. En s'appuyant sur le benchmark existant tau-bench, nous introduisons tau-break, un benchmark complémentaire conçu pour évaluer rigoureusement la robustesse de l'agent face au comportement manipulateur des utilisateurs. Enfin, nous évaluons plusieurs stratégies défensives simples mais efficaces. Bien que ces mesures offrent une certaine protection, elles restent insuffisantes, soulignant la nécessité de mettre en place des garanties plus solides et fondées sur la recherche pour protéger les agents adhérents aux politiques contre les attaques adverses.