하루 전
CRISP: 희소 오토인코더를 통한 지속적인 개념 무학습
Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov

초록
대규모 언어 모델(LLM)이 점점 더 실제 응용 분야에 도입되면서, 모델의 유용성을 유지하면서도 원하지 않는 지식을 선택적으로 제거할 필요성이 절실해지고 있다. 최근 연구들은 단일 의미 특징(monosemantic features)에 대해 정밀한 개입을 수행하기 위해 희소 자동부호기(Sparse Autoencoders, SAEs)를 탐색해왔다. 그러나 대부분의 SAE 기반 방법은 추론 시점에서 작동하며, 모델의 파라미터에 영구적인 변화를 만들지 못한다. 이러한 개입은 파라미터에 접근할 수 있는 악의적인 사용자에 의해 회피되거나 되돌릴 수 있다. 본 연구에서는 SAE를 활용한 지속적인 개념 무지식화(Concept Unlearning)를 위한 파라미터 효율적인 방법인 CRISP를 제안한다. CRISP는 여러 레이어에 걸쳐 중요한 SAE 특징을 자동으로 식별하고, 해당 특징의 활성화를 억제한다. 두 가지 LLM에 대한 실험을 통해 WMDP 벤치마크의 안전 중심 무지식화 과제에서 기존 방법보다 우수한 성능을 입증하였으며, 유해한 지식을 성공적으로 제거하면서도 일반적 및 도메인 내 능력은 유지함을 보였다. 특징 수준의 분석 결과, CRISP는 대상 개념과 유익한 개념 간에 의미적으로 일관된 분리를 달성하여 대상 특징의 정밀한 억제를 가능하게 한다.