HyperAI超神经

이 봄, XBOW에서 단순하면서도 혁신적인 아이디어가 우리의 취약점 검출 에이전트의 성능을 크게 향상시키는 것으로 나타났습니다. 고정된 벤치마크와 제한된 반복 횟수 하에서, 성공률이 25%에서 40%로, 이어서 55%로 상승했습니다. XBOW의 도전과제 XBOW는 자동으로 웹사이트를 해킹해 취약점을 찾아내는 펜테스팅 에이전트입니다. 초기 설정 후에는 더 이상 인간의 개입 없이 자동으로 작동합니다. 펜테스팅 작업은 복잡합니다. 웹사이트의 기술 스택, 논리, 공격 표면 등을 파악하고 지속적으로 업데이트하며 다양한 방법으로 시스템을 탐색해야 합니다. 그러나 이 글에서는 이러한 과정보다는 각 테스트에서 수백 번 발생하는 특정 하위 작업에 집중하겠습니다. 이 작업은 취약점의 종류를 알고 있는 상태에서 해당 위치에서 문제점을 입증하는 것입니다. 이 작업은 CTF(CTF, Capture The Flag) 챌린지와 비슷합니다. 특정 위치에 배치된 취약점을 이용해 플래그를 찾는 것이 목표입니다. 우리는 이러한 작업을 쉽게 반복하고 확장할 수 있도록 CTF 스타일로 벤치마크 세트를 구축했지만, 이제 우리의 솔버 에이전트가 너무 좋아서 대부분의 원래 세트는 그 사용 가치를 잃었습니다. 그러나 오픈 소스 프로젝트에서 더 어려운 예시들을 추출하여 계속해서 평가하고 있습니다. 에이전트의 작업 CTF 스타일 챌린지에서 솔버는 일정 횟수의 반복 동작을 수행하는 대리인 루프로 구성됩니다. 각 반복마다 솔버는 터미널 명령어 실행, Python 스크립트 작성, 펜테스팅 도구 실행 등 특정 행동을 결정합니다. 우리는 이 행동을 검토하고 실행한 후 결과를 보여주며, 다음 행동을 결정하도록 합니다. 80회 이상 반복하면 효율성이 떨어지므로, 새로운 솔버 에이전트를 시작합니다. 이 작업의 특별한 점은 연속적으로 진전을 이루는 문제와 달리, 광대한 검색 공간을 탐사하는 것이라는 점입니다. 에이전트는 많은 곳에서 탐사를 진행하며 잘못된 단서를 따라가기도 하고, 결국 다른 곳에서 성공적인 결과를 얻게 됩니다. 한 챌린지 동안, AI 에이전트는 여러 가지 데드엔드 중에서도 몇 가지 뛰어난 아이디어를 생각해내고 결합해야 합니다. LLM의 선택 XBOW의 AI 전략은 모델 제공자의 독립성을 유지하는 것이 중요한 부분입니다. 즉, 사용 사례에 최적화된 최고의 LLM을 쉽게 교체할 수 있습니다. 벤치마크 세트 덕분에 모델을 비교하기 쉽고, 새로운 모델을 지속적으로 평가합니다. 한동안 OpenAI의 GPT-4가 가장 좋은 오프더셸프 모델이었지만, 2022년 6월 Anthropic의 Sonnet 3.5가 출시되면서 그 위치를 넘겨받았습니다. 이후 Sonnet 3.7, Google의 Gemini 2.5 Pro, Sonnet 4.0이 차례대로 출시되었으며, 각각 개선되었습니다. 합금 에이전트 다른 LLM을 합성하여 사용하는 아이디어는 간단합니다. 모든 요청을 하나의 모델에 보내는 대신, 때때로 다른 모델에게도 요청을 보냅니다. 대화 스레드는 하나의 사용자와 하나의 보조원으로 유지되므로, 모델들은 서로의 존재를 인식하지 않습니다. 하나의 모델이 작성한 메시지는 다른 모델이 작성한 것이라고 생각하게 됩니다. 예를 들어, 첫 번째 라운드에서는 Sonnet에게 액션을 시작하도록 요청할 수 있습니다. 시스템: 취약점을 찾아라! Sonnet은 curl을 사용하라고 제안할 수 있습니다. 이를 실행하고 결과를 수집한 후 Gemini에게 전달합니다. 시스템: 취약점을 찾아라! 애저: curl로 앱을 시작해봅시다. 사용자: 401 Unauthorized 응답을 받았습니다. Gemini는 관리자 자격 증명으로 로그인하라고 제안할 수 있습니다. 이를 실행한 후 Sonnet에게 결과를 전달합니다. 시스템: 취약점을 찾아라! 애저: curl로 앱을 시작해봅시다. 사용자: 401 Unauthorized 응답을 받았습니다. 애저: 관리자 자격 증명으로 로그인해봅시다. 사용자: 200 OK 응답을 받았습니다. 이렇게 Sonnet이 작성했다고 믿는 일부 메시지는 실제로 Gemini가 작성한 것이며, 반대의 경우도 마찬가지입니다. 우리 구현에서는 더 큰 변동성을 위해 모델 선택을 무작위로 하였지만, 순환적으로 사용하거나 더 복잡한 전략을 실험할 수도 있습니다. 결과 두 개 혹은 세 개의 모델을 합성한 합금은 개별 모델보다 항상 더 우수한 성능을 보였습니다. Sonnet 3.7, GPT-4.1, Gemini 2.5 Pro, Sonnet 4.0 모두 합성될 때 개별 사용보다 더 나은 성능을 보였습니다. 다만 다음과 같은 경향을 관찰했습니다: - 서로 다른 제공자의 모델을 합성할 때만 실질적인 향상이 이루어졌습니다. 같은 제공자의 모델을 합성하면 성능이 개별 모델의 평균을 넘지 못했습니다. 합금 모델 사용 시기 다음과 같은 상황에서 합금 모델을 고려해보세요: - 다양한 아이디어와 일관적인 후속 작업이 필요한 작업 - 한 모델만으로 해결하기 어려운 복잡한 문제 합금 모델 사용하지 않는 시기 합금 모델에도 단점이 있습니다. 다음과 같은 상황에서는 두 번 생각해봐야 합니다: - 모델 간의 유사성이 높아 효과가 미비한 경우 - 각 단계에서 모델들이 직접 대화하거나 답변을 정제해야 하는 경우 (예: Multi-Agent Debate) 데이터 우리의 데이터를 활용해보고 싶다면, 여기에서 공유하고 있으니 자유롭게 사용해보세요. 새로운 발견이 있다면 [email protected]로 알려주세요. 여러분의 경험을 듣고 싶습니다! 업계 내부자의 평가 XBOW의 합금 에이전트는 다양한 모델의 강점을 결합하여 성능을 크게 향상시켰다는 점에서 매우 혁신적입니다. 특히, 서로 다른 제공자의 모델을 함께 사용함으로써 실질적인 성능 향상을 이룰 수 있다는 점이 주목할 만합니다. 이 방식은 펜테스팅뿐만 아니라 다양한 AI 애플리케이션에 적용 가능할 것으로 보이며, 앞으로의 발전 가능성에 대한 기대감을 높이고 있습니다. XBOW는 자동화된 펜테스팅 분야에서 선두를 달리는 회사로, AI 기술을 통해 사이버 보안을 강화하는 데 주력하고 있습니다. 이들의 성공은 다른 AI 기업들에게도 큰 영감을 줄 것으로 기대됩니다.

XBOW, 다양한 AI 모델 결합으로 보안 취약점 탐지 성공률 ↑

Related Links