17일 전

생성적 적대 변환기

Drew A. Hudson, C. Lawrence Zitnick
생성적 적대 변환기
초록

우리는 시각적 생성 모델링 작업을 위한 새로운 효율적인 트랜스포머 구조인 GANformer를 제안하고, 그 성능을 탐구한다. 이 네트워크는 이분 구조(bipartite structure)를 채택하여 이미지 전역에서 장거리 상호작용을 가능하게 하면서도 선형 복잡도를 유지함으로써 고해상도 합성에 쉽게 확장할 수 있다. GANformer는 잠재 변수 집합에서 진화하는 시각적 특징으로, 그리고 그 반대로 정보를 반복적으로 전파함으로써 서로를 기반으로 한 개선을 지원하고, 객체 및 장면의 구성적 표현이 자발적으로 형성되도록 유도한다. 기존의 트랜스포머 아키텍처와 달리, 곱셈적 통합(multiplicative integration)을 활용하여 유연한 영역 기반 조절(region-based modulation)을 가능하게 하며, 이로 인해 성공적인 StyleGAN 네트워크의 일반화로 볼 수 있다. 다양한 데이터셋—시뮬레이션된 다객체 환경부터 풍부한 실내 및 실외 실제 장면에 이르기까지—에 대한 철저한 평가를 통해 본 모델의 강력함과 견고함을 입증하였으며, 이미지 품질과 다양성 측면에서 최신 기준(SOTA) 성능을 달성하면서도 빠른 학습 속도와 더 나은 데이터 효율성을 보였다. 추가적인 정성적 및 정량적 실험을 통해 모델 내부 작동 원리를 깊이 있게 분석하였으며, 해석 가능성의 향상과 더 강한 분리성(disentanglement)이 확인되었고, 본 연구의 접근 방식의 효과와 이점을 입증하였다. 모델의 구현 코드는 https://github.com/dorarad/gansformer 에서 제공된다.

생성적 적대 변환기 | 최신 연구 논문 | HyperAI초신경