17일 전

StyleNAT: 각 헤드에 새로운 시각 부여하기

Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi
StyleNAT: 각 헤드에 새로운 시각 부여하기
초록

이미지 생성은 오랫동안 추구되어 왔지만 여전히 도전적인 과제였으며, 효율적인 방식으로 생성 작업을 수행하는 것도 마찬가지로 어렵다. 일반적으로 연구자들은 다양한 데이터셋 간에 극명한 차이가 있음에도 불구하고 파라미터 공간에서 거의 차이가 없는 '일괄형 통합 생성기'를 개발하려는 시도를 한다. 본 연구에서는 고성능 이미지 생성을 가능하게 하면서도 뛰어난 효율성과 유연성을 제공하는 새로운 트랜스포머 기반 프레임워크인 StyleNAT을 제안한다. 본 모델의 핵심은 이웃 주의(Neighborhood Attention, NA)를 활용하여 어텐션 헤드를 지역적 정보와 전역적 정보를 포착할 수 있도록 철저히 설계된 아키텍처이다. 다양한 어텐션 헤드가 서로 다른 수용 영역(receptive fields)에 주의를 기울일 수 있도록 함으로써, 모델은 정보를 더 효과적으로 통합하고, 데이터의 특성에 따라 매우 유연하게 적응할 수 있다. StyleNAT은 FFHQ-256에서 기존의 컨볼루션 기반 모델인 StyleGAN-XL과 트랜스포머 기반 모델인 HIT 및 StyleSwin을 모두 능가하는 새로운 SOTA(FID 점수 2.046)를 달성하였으며, FFHQ-1024에서는 트랜스포머 기반 모델 중 최고 성능(FID 점수 4.174)을 기록하였다. 특히 StyleGAN-XL 대비 FFHQ-256에서 FID 점수는 6.4% 향상되었으며, 파라미터 수는 28% 감소하고 샘플링 처리 속도는 56% 향상되었다. 코드와 모델은 https://github.com/SHI-Labs/StyleNAT에서 오픈소스로 공개될 예정이다.

StyleNAT: 각 헤드에 새로운 시각 부여하기 | 최신 연구 논문 | HyperAI초신경