
초록
딥러닝 모델은 이미지 분류 및 음성 처리와 같은 분야에서 높은 수준의 성능을 보여주었으나, 전자 건강 기록(EHR) 데이터를 활용한 딥러닝 모델 개발은 이 분야의 연구자들에게 고유한 개인정보 보호 문제를 해결해야 하는 도전 과제를 수반한다. 이러한 문제는 실질적인 합성 데이터 생성과 동시에 개인정보 보호를 보장하는 데 초점을 맞추게 한다. 본 논문에서는 합성 의료 기록을 생성하기 위한 새로운 프레임워크인 상관관계 포착 생성 적대 신경망(Correlation-capturing Generative Adversarial Network, CorGAN)을 제안한다. CorGAN에서는 합성 생성 적대 신경망과 합성 오토인코더를 결합하여 합성곱 신경망(Convolutional Neural Networks)을 활용하여 데이터 표현 공간 내에서 인접한 의료 특성 간의 상관관계를 효과적으로 포착한다. 모델의 정확도를 검증하기 위해, 분류 및 예측과 같은 다양한 머신러닝 환경에서 CorGAN이 생성한 합성 데이터가 실제 데이터와 유사한 성능을 보임을 입증한다. 또한, 합성 데이터의 현실성과 관련된 통계적 특성에 대한 분석과 함께 개인정보 보호 수준에 대한 평가도 제공한다. 본 연구의 소프트웨어는 오픈소스로 공개되었으며, 다음 링크에서 확인할 수 있다: https://github.com/astorfi/cor-gan.