초록

코드 언어 모델(Code Language Models, CLMs)은 코드 생성 및 요약과 같은 소프트웨어 공학 작업에서 뛰어난 성능을 보여왔으나, 최근의 실증적 연구들은 이들 모델이 심각한 개인정보 유출 취약성을 지닌다는 점을 드러냈다. 즉, 이러한 모델들은 훈련 데이터 중 민감한 정보를 의도하지 않은 방식으로 기억하게 되며, 특정 프롬프트에 의해 정확히 동일한 형식으로 기밀 정보를 재생산할 수 있다. 이 문제를 해결하기 위해 훈련 데이터 중복 제거 및 차별적 프라이버시 보강 등 여러 접근 방식이 제안되었으나, 이러한 방법들은 배포된 CLM에 대해 전체 모델 재훈련을 필요로 하므로 상당한 계산 비용이 발생한다. 본 논문에서는 다음과 같은 연구 질문에 답하고자 한다: CLM이 기억한 민감한 정보는 효과적이고 효율적으로 삭제될 수 있는가?이에 따라 우리는 기존의 재훈련 없이 특정 정보를 모델에서 제거할 수 있는 후행적 수정 기법인 머신 언러닝(machine unlearning)을 활용하여 CLM 내의 민감한 기억 정보 제거에 관한 선도적인 연구를 수행한다. 구체적으로, 우리는 CLM 훈련 데이터셋 내 민감 데이터의 기억 위험도를 정량화하고, 5만 개의 고위험 민감 기억 샘플로 구성된 데이터셋을 언러닝 대상으로 구성하였다. 또한, 일반적으로 사용되는 두 가지 기울기 상승 기반의 언러닝 기법—기본형 및 제약 기반 방법—을 분석한 후, 코드의 구조적 완전성과 기능 정확성을 유지하면서도 민감한 기억된 코드 조각만을 선택적으로 제거하는 고급 변형인 CodeEraser를 제안한다. CodeParrot, CodeGen-Mono, Qwen2.5-Coder의 세 가지 계열 CLM에 대한 광범위한 실험을 통해, CodeEraser가 대상 민감 정보를 효과적으로 제거하면서도 모델의 활용도를 유지함을 입증하였다.

소스 PDF