HyperAIHyperAI

Command Palette

Search for a command to run...

Équipe Rouge Efficace d'Agents Conformes aux Politiques

Itay Nakash George Kour Koren Lazar Matan Vetzler Guy Uziel Ateret Anaby-Tavor

Résumé

Les agents basés sur des modèles de langage grand (LLM) orientés vers les tâches sont de plus en plus utilisés dans des domaines soumis à des politiques strictes, telles que les règles d'éligibilité aux remboursements ou d'annulation. Le défi réside dans le fait de garantir que l'agent adhère constamment à ces règles et politiques, refusant de manière appropriée toute demande qui les violerait, tout en maintenant une interaction utile et naturelle. Cela nécessite le développement de méthodologies de conception et d'évaluation spécifiques pour assurer la résilience de l'agent face au comportement malveillant des utilisateurs. Nous proposons un nouveau modèle de menace se concentrant sur les utilisateurs adverses visant à exploiter les agents adhérents aux politiques pour leur propre bénéfice. Pour y faire face, nous présentons CRAFT, un système d'équipe rouge multi-agents qui utilise des stratégies persuasives conscientes des politiques pour affaiblir un agent adhérent aux politiques dans un scénario de service client, surpassant ainsi les méthodes conventionnelles de contournement telles que les invites DAN (Direct Access Navigation), la manipulation émotionnelle et la coercition. En s'appuyant sur le benchmark existant tau-bench, nous introduisons tau-break, un benchmark complémentaire conçu pour évaluer rigoureusement la robustesse de l'agent face au comportement manipulateur des utilisateurs. Enfin, nous évaluons plusieurs stratégies défensives simples mais efficaces. Bien que ces mesures offrent une certaine protection, elles restent insuffisantes, soulignant la nécessité de mettre en place des garanties plus solides et fondées sur la recherche pour protéger les agents adhérents aux politiques contre les attaques adverses.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp