17일 전

인터랙티브 이미지 합성 및 편집을 위한 AnyCost GANs

Ji Lin, Richard Zhang, Frieder Ganz, Song Han, Jun-Yan Zhu
인터랙티브 이미지 합성 및 편집을 위한 AnyCost GANs
초록

생성적 적대 신경망(GAN)은 사실적인 이미지 합성과 편집을 가능하게 했으나, 대규모 생성자(예: StyleGAN2)의 높은 계산 비용으로 인해 엣지 장치에서 단일 편집 결과를 확인하는 데 보통 몇 초가 소요되어 상호작용 가능한 사용자 경험을 제한한다. 본 논문에서는 현대 렌더링 소프트웨어의 아이디어를 차용하여, 상호작용 가능한 자연 이미지 편집을 위한 AnyCost GAN을 제안한다. AnyCost GAN은 다양한 해상도와 채널 수를 유연하게 지원하도록 훈련하여, 다양한 속도에서 빠른 이미지 생성을 가능하게 한다. 전체 생성자의 하위 집합을 실행하면 전체 생성자와 시각적으로 유사한 출력을 얻을 수 있어, 미리보기용으로 적합한 대안이 된다. 샘플링 기반 다중 해상도 훈련, 적응형 채널 훈련, 생성자 조건부 판별자 등을 활용함으로써 AnyCost 생성자는 다양한 구성에서 평가될 수 있으며, 별도로 훈련된 모델보다 더 뛰어난 이미지 품질을 달성한다. 또한, 이미지 투영 과정에서 각 하위 생성자 간의 일관성을 유도하기 위해 새로운 인코더 훈련 기법과 잠재 코드 최적화 기술을 개발하였다. AnyCost GAN은 최대 10배의 계산량 감소를 가능하게 하며, 다양한 하드웨어 환경과 지연 시간 요구 사항에 유연하게 대응할 수 있다. 데스크톱 CPU 및 엣지 장치에 배포했을 때, 본 모델은 시각적으로 유사한 미리보기를 6~12배 빠르게 제공하여 상호작용 가능한 이미지 편집을 가능하게 한다. 코드 및 데모는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/mit-han-lab/anycost-gan.