음성 데이터 증강

데이터 증강은 원래 데이터 분포에 따라 합성 샘플을 생성함으로써 데이터셋을 확장하는 데 자주 사용된다. 더 광범위한 증강을 가능하게 하기 위해, 우리는 분포 외(out-of-distribution) 샘플을 의도적으로 생성하는 음성 데이터 증강 전략(Negative Data Augmentation, NDA)을 탐색한다. 본 연구에서는 이러한 음성 분포 외 샘플이 데이터 분포의 지지 집합(support)에 대한 정보를 제공함을 보이며, 이를 생성 모델링과 표현 학습에 활용할 수 있음을 밝힌다. 우리는 판별자(discriminator)의 추가적인 합성 데이터 소스로 NDA를 사용하는 새로운 GAN 학습 목표를 제안한다. 적절한 조건 하에서, 이 목표를 최적화함으로써 진정한 데이터 분포를 여전히 복원할 수 있음을 증명하였으며, 동시에 생성자(generator)가 원하는 구조를 갖추지 못한 샘플을 피하도록 직접적으로 편향시킬 수 있음을 보였다. 실증적으로, 본 방법으로 학습된 모델은 조건부/비조건부 이미지 생성 성능과 이상 탐지 능력 모두에서 향상된 결과를 보였다. 또한, 동일한 음성 데이터 증강 전략을 자기지도 학습을 위한 대조 학습(contrastive learning) 프레임워크에 도입하여 이미지 및 영상에 대한 자기지도 표현 학습에 적용하였으며, 하류 작업인 이미지 분류, 객체 탐지, 행동 인식 등에서 개선된 성능을 달성하였다. 이러한 결과들은, 유효한 데이터가 되지 않는 것에 대한 사전 지식이 다양한 비지도 학습 작업에서 효과적인 약한 감독 형태가 될 수 있음을 시사한다.