HyperAI

Effektives Red-Teaming von regelkonformen Agenten

Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor
Veröffentlichungsdatum: 6/16/2025
Effektives Red-Teaming von regelkonformen Agenten
Abstract

Task-orientierte LLM-basierte Agenten werden zunehmend in Bereichen eingesetzt, die strenge Richtlinien haben, wie etwa Erstattungsbedingungen oder Stornierungsregeln. Die Herausforderung besteht darin, sicherzustellen, dass der Agent stets diesen Regeln und Richtlinien folgt und angemessen jede Anfrage ablehnt, die sie verletzen würde, während er gleichzeitig eine hilfreiche und natürliche Interaktion aufrechterhält. Dies erfordert die Entwicklung maßgeschneiderter Design- und Evaluationsmethoden, um die Widerstandsfähigkeit des Agenten gegen bösartiges Benutzerverhalten zu gewährleisten. Wir schlagen ein neues Bedrohungsszenario vor, das sich auf feindselige Benutzer konzentriert, die versuchen, richtlinienbasierte Agenten zu ihrem eigenen Vorteil auszunutzen. Um dies anzugehen, präsentieren wir CRAFT (Customer-service Red-teaming Framework), ein Mehragentensystem zur Rot-Team-Übung, das überzeugende Strategien nutzt, um einen richtlinienbasierten Agenten in einem Kundendienst-Szenario zu untergraben und dabei herkömmliche Jailbreak-Methoden wie DAN-Prompts (Direct Access to Network Prompts), emotionale Manipulation und Zwangsmethoden übertrifft. Aufbauend auf dem bestehenden tau-bench-Benchmark führen wir tau-break ein, einen ergänzenden Benchmark, der entwickelt wurde, um die Robustheit des Agenten gegen manipulatives Benutzerverhalten streng zu bewerten. Schließlich evaluieren wir mehrere einfache aber effektive Verteidigungsstrategien. Obwohl diese Maßnahmen einen gewissen Schutz bieten, reichen sie nicht aus und verdeutlichen die Notwendigkeit stärkerer, forschungsbasierter Schutzmechanismen zur Verteidigung von richtlinienbasierten Agenten gegen feindselige Angriffe.