HyperAI超神经

OpenAI는 최근 ChatGPT에 강력한 새로운 기능을 추가하며, 이로 인해 새로운 보안 위험과 영향이 발생하였습니다. 이 새로운 모드인 'ChatGPT 에이전트'는 유료 구독자들이 이메일과 웹 계정에 로그인하거나, 이메일을 작성하고 응답하며, 파일을 다운로드, 수정, 생성하는 등 다양한 작업을 자동으로 수행할 수 있게 해줍니다. 그러나 이러한 기능은 사용자가 ChatGPT 에이전트를 자신의 로그인 정보와 함께 사용하는 데 있어 신뢰성을 요구하며, 일반 ChatGPT보다 더 큰 위험을 내포하고 있습니다. OpenAI의 안전 연구팀 멤버인 케렌 구(Keren Gu)는 X에서 "우리는 ChatGPT 에이전트에 가장 강력한 보안 조치를 적용했습니다. 이 모델은 생물학 및 화학 분야에서 '고도의 능력'을 가진 첫 번째 모델입니다. 이를 안전하게 유지하기 위한 이유와 방법에 대해 설명합니다."라고 언급했습니다. 레드팀의 임무 OpenAI는 이 새로운 기능을 테스트하기 위해 16명의 보안 전문 박사 과정 연구원으로 구성된 '레드팀'을 고용했습니다. 연구원들은 40시간 동안 시스템을 검증하였으며, 이 과정에서 AI 에이전트가 실제 세계의 상호작용을 처리하는 방식에 대한 7가지 보편적인 악성 이용법을 발견했습니다. 이러한 발견은 OpenAI에게 시스템을 개선하는 데 필요한 중요한 정보를 제공하였습니다. 레드팀 네트워크는 프롬프트 주입부터 생물학적 정보 추출까지 110건의 공격 시도를 제출하였고, 이 중 16건이 내부 위험 기준을 초과하여 근본적인 취약점을暴露出. 레드팀의 결과로 인한 보안 개선 레드팀의 결과를 바탕으로 OpenAI는 ChatGPT 에이전트의 보안을 크게 개선했습니다. 주요 개선 사항은 다음과 같습니다: 비주얼 브라우저 무관한 명령 공격: 이전 모델에서 82%였던 성능이 95%로 향상되었습니다. 인-컨텍스트 데이터 유출: 이전 75%에서 78%로 개선되었습니다. 활성 데이터 유출: 이전 58%에서 67%로 향상되었습니다. 시스템 안정성: 샘플링 기반 모니터링에서 100% 트래픽 모니터링으로 완전히 전환되었습니다. 이러한 개선은 다음과 같은 아키텍처를 통해 이루어졌습니다: 감시 모드 활성화: 뱅킹이나 이메일 계정과 같은 민감한 컨텍스트에 접근할 때, 사용자가 다른 페이지로 이동하면 시스템이 모든 활동을 중단합니다. 메모리 기능 비활성화: 레드팀이 시연한 점진적인 데이터 유출 공격을 막기 위해 메모리 기능이 완전히 비활성화되었습니다. 터미널 제한: 네트워크 접근이 GET 요청만 허용되도록 제한되었습니다. 신속한 대응 프로토콜: 레드팀이 얼마나 빠르게 악성 이용법이 확산될 수 있는지를 보여주면서, 발견된 취약점을 몇 시간 안에 패치하는 새로운 시스템이 도입되었습니다. 생물학적 위험 경고 레드팀은 ChatGPT 에이전트가 생물학적 위험을 증대시킬 수 있는 가능성을 폭로하였습니다. 16명의 경험 많은 연구원들이 생물학적 위험 관련 정보를 추출하려는 시도를 하였는데, 이들의 제출 내용은 모델이 공개된 문헌을 통해 생물학적 위협을 수정하고 생성할 수 있다는 것을 보여주었습니다. 이에 OpenAI는 ChatGPT 에이전트를 생물학 및 화학 분야에서 '고도의 능력'을 가진 것으로 분류하였으며, 레드팀의 결과를 바탕으로 예방적인 조치를 취하였습니다. 이는 결정적인 무기화 가능성이 발견되지 않았더라도, 레드팀의 시험 결과를 바탕으로 한 조치입니다. 레드팀이 OpenAI에게 가르쳐준 AI 보안 교훈 110건의 공격 시도는 OpenAI의 보안 철학에 큰 변화를 가져왔습니다. 주요 교훈은 다음과 같습니다: 지속성보다는 권한: 공격자는 복잡한 악성 이용법이 아니라 시간이 중요하다는 사실을 보여주었습니다. 레드팀은 점진적이고 인내심 있는 공격이 결국 시스템을 타파할 수 있음을 시연하였습니다. 신뢰 경계는 가상의 개념: AI 에이전트가 Google Drive를 접근하고, 웹을 검색하며, 코드를 실행할 수 있을 때 전통적인 보안 경계는 무너집니다. 레드팀은 이러한 기능 간의 간극을 악용하였습니다. 모니터링은 선택이 아닌 필수: 샘플링 기반 모니터링이 중요한 공격을 놓칠 수 있다는 사실이 드러나면서, 100% 트래픽 모니터링이 필수가 되었습니다. 속도가 중요: 프롬프트 주입 공격이 즉시 확산될 수 있으므로, 몇 주가 아니라 몇 시간 내에 취약점을 패치하는 것이 필수적임을 입증하였습니다. 엔터프라이즈 AI의 새로운 보안 기준 CISO(최고 정보 보안 책임자)들이 AI 배포를 평가할 때, 레드팀의 발견은 다음과 같은 명확한 요구사항을 설정하였습니다: 양적 보호: ChatGPT 에이전트의 95% 방어율은 업계 기준을 설정하였습니다. 시스템 카드에 정의된 여러 테스트와 결과는 모델 보안에 관여하는 모든 사람에게 필독서입니다. 완전한 가시성: 100% 트래픽 모니터링은 이상적이지 않은 개념이 아니라 필수 조건이 되었습니다. 신속한 대응: 발견된 취약점을 몇 시간 내에 패치해야 합니다. 강제된 경계: 일부 작업(예: 민감한 작업 중 메모리 접근)은 안전성이 확인되기 전까지 비활성화되어야 합니다. UK AISI의 테스트는 특히 교훈적입니다. 그들이 식별한 7가지 보편적인 공격 모두 출시 전에 패치되었지만, 내부 시스템에 대한 특권된 접근은 결연한 적수가 결국 발견할 수 있는 취약점을 폭로하였습니다. "이것은 우리의 준비성 작업에 있어서 중요한 전환점입니다," 케렌 구는 X에서 썼습니다. "고도의 능력을 갖추기 전에는 능력 분석과 보안 조치 계획이 준비성 작업의 주요 부분이었지만, 이제는 에이전트와 미래의 더 강력한 모델에서 보안 조치가 운영적 요구사항이 되었습니다." 레드팀이 안전하고 보안이 강화된 AI 모델 구축의 핵심 역할 레드팀이 발견한 7가지 보편적인 악성 이용법과 110건의 공격 시도는 ChatGPT 에이전트를 단순히 보안 기능이 아닌 보안 기반의 AI 시스템으로 만들도록 강제하였습니다. 레드팀은 AI 에이전트가 어떻게 무기화될 수 있는지를 구체적으로 밝히면서, 95%의 비주얼 브라우저 공격 차단, 78%의 데이터 유출 시도 검출, 모든 상호작용 모니터링 등의 성과를 달성하였습니다. AI 개발 경쟁이 가속화되는 가운데, 생존하고 성장하는 기업들은 레드팀을 플랫폼의 핵심 설계자로 viewing하고, 안전성과 보안성을 극한까지 테스트하는 기업들일 것입니다. 이러한 과정을 통해 OpenAI는 업계에서 새로운 보안 기준을 세우는 데 중요한 역할을 하고 있으며, 이는 다른 AI 기업들도 따라야 할 방향성을 제시하고 있습니다.

오픈AI, 레드팀의 도움으로 ChatGPT 에이전트 보안 강화

Related Links