PATE-GAN: 차분 프라이버시 보장과 함께 합성 데이터 생성하기

머신러닝은 점점 더 많이 확보되고 있는 대규모 데이터셋을 활용함으로써 다양한 공동체가 혜택을 볼 수 있는 잠재력을 지니고 있다. 그러나 개인정보 보호가 침해될 우려가 있기 때문에 데이터를 공유하는 방식이 필요하다는 점에서, 이러한 잠재력의 대부분은 아직 실현되지 못하고 있다. 본 논문에서는 생성적 적대 신경망(GAN) 프레임워크의 생성자(generator)에 대한 (차별적) 개인정보 보호를 보장하는 방법을 탐구한다. 이를 통해 얻어진 모델은 원본 데이터셋의 개인정보를 침해하지 않으면서도, 알고리즘의 학습 및 검증, 대회 운영 등에 사용할 수 있는 합성 데이터를 생성하는 데 활용될 수 있다. 제안하는 방법은 개인 정보 보호를 위한 교사 앙상블의 사전 집계(PATE) 프레임워크를 수정하여 GAN에 적용하는 것이다. 수정된 프레임워크(이를 PATE-GAN이라 명명함)는 모델에 대한 개별 샘플의 영향력을 엄격하게 제한할 수 있어, 강력한 차별적 개인정보 보호 보장을 가능하게 하며, 동일한 보호 수준을 갖는 기존 모델들에 비해 더 뛰어난 성능을 달성할 수 있다. 또한 합성 데이터의 품질을 평가하는 새로운 관점도 제시한다. 즉, 합성 데이터가 머신러닝 연구자들에게 유용하기 위해서는, 두 알고리즘이 합성 데이터셋에서 학습 및 테스트했을 때의 상대적 성능이 원본 데이터셋에서 학습 및 테스트했을 때의 상대적 성능과 동일해야 한다는 주장이다. 다양한 데이터셋을 대상으로 수행한 실험 결과, PATE-GAN은 이와 같은 기준뿐 아니라 다른 합성 데이터 품질 지표에서도 최신 기술(상위 수준 기법)을 일관되게 초월함을 입증하였다.