Command Palette

Search for a command to run...

12일 전

안전한 생성형 AI를 위한 공감대 샘플링

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

안전한 생성형 AI를 위한 공감대 샘플링

초록

인공지능(AI) 안전성에 대한 많은 접근 방식은 모델의 출력이나 활성화 상태를 검사하는 데 의존하지만, 일부 위험은 단순한 검사만으로는 본질적으로 탐지할 수 없다. 본 연구에서는 기존 접근법과 보완되는, 아키텍처에 종속되지 않는 새로운 방법을 제안한다. 이 방법은 여러 생성형 모델을 통합함으로써 안전성을 강화하며, 통합된 모델은 그 중에서 주어진 크기 내에서 가장 안전한 하위 집합의 특성을 상속받는다. 구체적으로, k개의 모델과 입력 프롬프트가 주어졌을 때, 안전성은 k개 모델 중 가장 안전한 s개의 평균 위험 수준과 경쟁 가능하게 유지하면서, 모델 간 합의가 충분하지 않을 경우 출력을 회피하는 '공동 합의 샘플링(algorithm)'을 제시한다. 이 알고리즘은 모델들이 출력 확률을 계산할 수 있는 능력을 활용하며, 충분히 많은 모델이 안전하고 충분한 일치를 보일 경우, 출력 회피의 확률을 이론적으로 한계화할 수 있다. 본 알고리즘은 Vyas 등(2023)의 증명 가능한 저작권 보호 알고리즘에서 영감을 받았다. 다만, 안전한 모델들 간에 일정한 겹침이 필요하며, 모든 모델이 안전하지 않은 경우 보호 기능을 제공하지 않으며, 반복 사용 시 위험이 누적될 수 있다. 그럼에도 불구하고, 본 연구는 모델 집합 내에서 안전성이 보장되지 않은 하위 집합을 기반으로, 하나의 신뢰할 수 있는 모델에 대한 안전성 보장을 강화하는 새로운 모델 독립적 접근법을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
안전한 생성형 AI를 위한 공감대 샘플링 | 연구 논문 | HyperAI초신경