Command Palette
Search for a command to run...
스クラ브잇아웃! 기계적 무기억을 통한 코드 언어 모델 내 민감한 기억화 제거
스クラ브잇아웃! 기계적 무기억을 통한 코드 언어 모델 내 민감한 기억화 제거
Zhaoyang Chu Yao Wan Zhikun Zhang Di Wang Zhou Yang Hongyu Zhang Pan Zhou Xuanhua Shi Hai Jin David Lo
초록
코드 언어 모델(Code Language Models, CLMs)은 코드 생성 및 요약과 같은 소프트웨어 공학 작업에서 뛰어난 성능을 보여왔으나, 최근의 실증적 연구들은 이들 모델이 심각한 개인정보 유출 취약성을 지닌다는 점을 드러냈다. 즉, 이러한 모델들은 훈련 데이터 중 민감한 정보를 의도하지 않은 방식으로 기억하게 되며, 특정 프롬프트에 의해 정확히 동일한 형식으로 기밀 정보를 재생산할 수 있다. 이 문제를 해결하기 위해 훈련 데이터 중복 제거 및 차별적 프라이버시 보강 등 여러 접근 방식이 제안되었으나, 이러한 방법들은 배포된 CLM에 대해 전체 모델 재훈련을 필요로 하므로 상당한 계산 비용이 발생한다. 본 논문에서는 다음과 같은 연구 질문에 답하고자 한다: CLM이 기억한 민감한 정보는 효과적이고 효율적으로 삭제될 수 있는가?이에 따라 우리는 기존의 재훈련 없이 특정 정보를 모델에서 제거할 수 있는 후행적 수정 기법인 머신 언러닝(machine unlearning)을 활용하여 CLM 내의 민감한 기억 정보 제거에 관한 선도적인 연구를 수행한다. 구체적으로, 우리는 CLM 훈련 데이터셋 내 민감 데이터의 기억 위험도를 정량화하고, 5만 개의 고위험 민감 기억 샘플로 구성된 데이터셋을 언러닝 대상으로 구성하였다. 또한, 일반적으로 사용되는 두 가지 기울기 상승 기반의 언러닝 기법—기본형 및 제약 기반 방법—을 분석한 후, 코드의 구조적 완전성과 기능 정확성을 유지하면서도 민감한 기억된 코드 조각만을 선택적으로 제거하는 고급 변형인 CodeEraser를 제안한다. CodeParrot, CodeGen-Mono, Qwen2.5-Coder의 세 가지 계열 CLM에 대한 광범위한 실험을 통해, CodeEraser가 대상 민감 정보를 효과적으로 제거하면서도 모델의 활용도를 유지함을 입증하였다.