잠재적 지구화 네트워크: 생성 모델링, 표현 학습 및 분류를 위한 통합 원리

생성 모델링, 표현 학습, 분류는 머신러닝(ML)의 세 가지 핵심 문제이지만, 현재 최고 수준(SoTA, State-of-the-Art)의 해결 방안들은 여전히 크게 분리되어 있다. 본 논문에서는 다음과 같은 질문을 제기한다: 하나의 통합 원리가 이 세 가지 문제를 모두 다룰 수 있는가? 이러한 통합은 머신러닝 파이프라인을 단순화하고, 다양한 작업 간의 상호작용을 더욱 촉진할 수 있다. 본 연구에서는 이러한 목표에 한 걸음 다가서기 위해 잠재 공간 분할 네트워크(Latent Zoning Network, LZN)를 제안한다. LZN의 핵심은 모든 작업에 걸쳐 정보를 인코딩하는 공통의 가우시안 잠재 공간을 생성하는 것이다. 각각의 데이터 유형(예: 이미지, 텍스트, 레이블)은 서로 겹치지 않는 잠재 영역으로 샘플을 매핑하는 인코더와, 잠재 변수를 다시 데이터로 복원하는 디코더를 갖춘다. 머신러닝 작업은 이러한 인코더와 디코더의 조합으로 표현된다. 예를 들어, 레이블 조건부 이미지 생성은 레이블 인코더와 이미지 디코더를 사용하며, 이미지 임베딩은 이미지 인코더만을 사용하고, 분류 작업은 이미지 인코더와 레이블 디코더를 함께 활용한다.우리는 LZN의 잠재력을 세 가지 점점 더 복잡한 시나리오에서 검증하였다.(1) 기존 모델의 성능 향상(이미지 생성): 최첨단 Rectified Flow 모델과 결합했을 때, LZN은 CIFAR10에서 FID(파일 정확도 지표)를 2.76에서 2.59로 개선하였으며, 학습 목표를 수정하지 않고도 가능했다.(2) 독립적인 작업 해결(표현 학습): LZN은 보조 손실 함수 없이도 비지도 표현 학습을 수행할 수 있으며, ImageNet에서 하류 선형 분류 작업에서 전통적인 MoCo 및 SimCLR 방법보다 각각 9.3%, 0.2% 높은 성능을 달성했다.(3) 다중 작업 동시 해결(통합 생성 및 분류): 이미지 및 레이블 인코더/디코더를 갖춘 LZN은 설계상 이미지 생성과 분류를 동시에 수행할 수 있으며, FID를 개선하면서 CIFAR10에서 최고 수준의 분류 정확도를 달성했다.코드 및 학습된 모델은 https://github.com/microsoft/latent-zoning-networks에서 제공되며, 프로젝트 웹사이트는 https://zinanlin.me/blogs/latent_zoning_networks.html에서 확인할 수 있다.