UDRN: 특성 선택 및 특성 투영을 위한 통합 차원 감소 신경망

차원 축소(Dimensional Reduction, DR)는 정의된 최적화 목표를 최소화하는 방식으로 고차원 데이터를 저차원의 잠재 공간(latent space)으로 매핑한다. DR 기법은 일반적으로 특성 선택(Feature Selection, FS)과 특성 투영(Feature Projection, FP)으로 나뉜다. FS는 중요한 차원의 부분집합을 선택하는 데 초점을 맞추지만, 데이터의 분포(구조)를 파괴할 위험이 있다. 반면 FP는 입력 특성들을 모두 종합하여 저차원 공간으로 투영함으로써 데이터 구조를 유지하려는 목표를 가진다. 그러나 FP는 해석 가능성과 희소성(sparse)이 부족하다는 한계를 지닌다. 전통적으로 FS와 FP는 상호 배타적인 범주로 간주되어, 통합적인 프레임워크로 통합되지 못해왔다. 본 연구에서는 이상적인 DR 방법이 FS와 FP를 통합한 일관된 엔드투엔드(manifold learning) 프레임워크로 구성되어야 하며, 잠재 공간 내 데이터 샘플 간의 내재적 관계를 유지하면서 동시에 근본적인 특성 탐색을 동시에 수행할 수 있어야 한다고 제안한다. 본 논문에서는 이러한 목표를 달성하기 위해, FS와 FP를 호환 가능하고 엔드투엔드 방식으로 통합하는 통합 차원 축소 신경망(Unified Dimensional Reduction Neural-network, UDRN) 프레임워크를 제안한다. UDRN은 두 개의 스택형 하위 네트워크를 별도로 구현하여 FS와 FP 작업을 각각 수행함으로써 신경망 구조를 개선하였다. 또한, 고차원 특성 데이터셋을 다룰 때의 일반화 능력을 향상시키기 위해 DR 과정에 데이터 증강(data augmentation) 기법을 도입하였으며, 데이터 증강과 상호작용 가능한 손실 함수(loss function)도 설계하였다. 이미지 데이터 4종과 생물학적 데이터 4종(매우 고차원 데이터 포함)에 대한 광범위한 실험 결과를 통해, 기존의 DR 방법들(FS, FP, 그리고 FS&FP 파이프라인)에 비해 UDRN이 분류 및 시각화와 같은 후속 작업에서 뛰어난 성능을 보임을 입증하였다.