Command Palette
Search for a command to run...
Adam Tauman Kalai Yael Tauman Kalai Or Zamir

초록
인공지능(AI) 안전성에 대한 많은 접근 방식은 모델의 출력이나 활성화 상태를 검사하는 데 의존하지만, 일부 위험은 단순한 검사만으로는 본질적으로 탐지할 수 없다. 본 연구에서는 기존 접근법과 보완되는, 아키텍처에 종속되지 않는 새로운 방법을 제안한다. 이 방법은 여러 생성형 모델을 통합함으로써 안전성을 강화하며, 통합된 모델은 그 중에서 주어진 크기 내에서 가장 안전한 하위 집합의 특성을 상속받는다. 구체적으로, k개의 모델과 입력 프롬프트가 주어졌을 때, 안전성은 k개 모델 중 가장 안전한 s개의 평균 위험 수준과 경쟁 가능하게 유지하면서, 모델 간 합의가 충분하지 않을 경우 출력을 회피하는 '공동 합의 샘플링(algorithm)'을 제시한다. 이 알고리즘은 모델들이 출력 확률을 계산할 수 있는 능력을 활용하며, 충분히 많은 모델이 안전하고 충분한 일치를 보일 경우, 출력 회피의 확률을 이론적으로 한계화할 수 있다. 본 알고리즘은 Vyas 등(2023)의 증명 가능한 저작권 보호 알고리즘에서 영감을 받았다. 다만, 안전한 모델들 간에 일정한 겹침이 필요하며, 모든 모델이 안전하지 않은 경우 보호 기능을 제공하지 않으며, 반복 사용 시 위험이 누적될 수 있다. 그럼에도 불구하고, 본 연구는 모델 집합 내에서 안전성이 보장되지 않은 하위 집합을 기반으로, 하나의 신뢰할 수 있는 모델에 대한 안전성 보장을 강화하는 새로운 모델 독립적 접근법을 제시한다.