정책 준수 에이전트의 효과적인 레드팀 구성

태스크 지향형 LLM 기반 에이전트는 환불 자격 또는 취소 규칙과 같은 엄격한 정책을 적용하는 분야에서 점점 더 많이 사용되고 있습니다. 이들 에이전트가 이러한 규칙과 정책을 일관되게 준수하면서, 이를 위반할 수 있는 요청을 적절히 거부하면서도 도움이 되고 자연스러운 상호작용을 유지하는 것이 과제입니다. 이는 악의적인 사용자의 행동에 대비하여 에이전트의 탄력성을 보장하기 위한 맞춤형 설계 및 평가 방법론 개발을 요구합니다. 우리는 개인적 이익을 위해 정책 준수 에이전트를 이용하려는 적대적 사용자를 목표로 하는 새로운 위협 모델을 제안합니다. 이를 해결하기 위해, 고객 서비스 시나리오에서 정책 인지型 설득 전략을 활용하여 정책 준수 에이전트를 무너뜨리는 다중 에이전트 레드팀 시스템인 CRAFT를 소개합니다. 이 시스템은 DAN 프롬프트, 감정 조작, 강요 등과 같은 전통적인 탈출 방법보다 우수한 성능을 보입니다. 기존의 tau-bench 벤치마크를 바탕으로, 우리는 조작적인 사용자 행동에 대한 에이전트의 견고성을 철저히 평가하기 위해 보완적인 벤치마크인 tau-break를 제시합니다. 마지막으로, 여러 가지 단순하지만 효과적인 방어 전략을 평가하였습니다. 이러한 조치들이 일정 부분 보호를 제공하지만, 부족한 점이 있어 더욱 강력하고 연구 기반의 보호 장치가 필요함을 강조합니다.注释:在“정책 인지型 설득 전략”中,“型”是一个中文字符,正确的韩文表达应该是“형”. 因此,正确的翻译应为:"정책 인지형 설득 전략" (Policy-aware persuasive strategies)