9일 전

언어 모델에서 개인정보 위험 완화를 위한 지식 무기능화

Joel Jang, Dongkeun Yoon, Sohee Yang, Sungmin Cha, Moontae Lee, Lajanugen Logeswaran, Minjoon Seo
언어 모델에서 개인정보 위험 완화를 위한 지식 무기능화
초록

사전 훈련된 언어 모델(LM)은 초기 사전 훈련 과정에서 개인의 삶과 정체성에 관한 개인정보를 포함한 방대한 지식을 기억하게 된다. 기존 언어 모델의 개인정보 보호 문제를 다룬 연구들은 주로 데이터 전처리 및 차별적 프라이버시(differential privacy) 기법에 집중해왔으며, 이들 방법은 기반 모델의 재훈련을 필요로 한다. 본 연구에서는 사후(post hoc) 방식으로 언어 모델의 개인정보 위험을 줄이기 위한 대안으로 '지식 삭제(knowledge unlearning)'을 제안한다. 우리는 큰 규모의 언어 모델에서 타겟 토큰 시퀀스에 대해 단순히 경사 상승(gradient ascent)을 수행하는 것이, 일반 언어 모델링 성능의 거의 손실 없이 해당 정보를 효과적으로 잊게 한다는 점을 보여준다. 특히, 몇 번의 반복만으로도 기반 모델의 성능이 상당히 향상되는 경우도 있다. 또한, 일괄적으로 모든 데이터를 삭제하려는 시도보다는 순차적으로 삭제하는 것이 더 효과적이며, 삭제되는 데이터의 종류(도메인)에 따라 성능이 크게 달라진다는 점을 발견했다. 기존의 데이터 전처리 방법과 언어 모델의 추론 단계에서 개인정보 위험을 완화하는 것으로 알려진 디코딩 기법과의 비교를 통해, 사전에 추출 공격에 취약한 데이터가 알려진 상황에서는 지식 삭제가 더 강력한 경험적 프라이버시 보장을 제공할 뿐만 아니라 훨씬 효율적이고 견고함을 입증하였다. 본 연구의 결과를 재현하기 위해 필요한 코드와 데이터셋은 https://github.com/joeljang/knowledge-unlearning 에 공개한다.

언어 모델에서 개인정보 위험 완화를 위한 지식 무기능화 | 최신 연구 논문 | HyperAI초신경