15일 전

선형 가산 주의(Additive-Attention) 트랜스포머를 활용한 효율적인 생성적 적대 신경망

Emilio Morales-Juarez, Gibran Fuentes-Pineda
선형 가산 주의(Additive-Attention) 트랜스포머를 활용한 효율적인 생성적 적대 신경망
초록

최근 몇 년간 이미지 생성을 위한 딥 생성 모델, 예를 들어 확산 모델(Diffusion Models, DMs)과 생성적 적대 신경망(Generative Adversarial Networks, GANs)의 성능은 급격히 향상되었지만, 이러한 성과의 대부분은 계산 비용이 매우 높은 아키텍처에 기인하고 있다. 이로 인해 이러한 모델들은 연구소와 대규모 자원을 보유한 기업 외에는 널리 채택되기 어려웠으며, 학습, 미세조정, 추론 과정에서의 탄소 배출량도 크게 증가하였다. 본 연구에서는 새로운 GAN 아키텍처인 LadaGAN을 제안한다. 이 아키텍처는 Ladaformer라 불리는 선형 어텐션 Transformer 블록에 기반하고 있다. 이 블록의 핵심 구성 요소는 각 헤드당 하나의 어텐션 벡터를 계산하는 선형 가법 어텐션 메커니즘으로, 기존의 이차적 내적 어텐션(dot-product attention) 대신 사용된다. LadaGAN은 생성자(generator)와 판별자(discriminator) 양쪽에 Ladaformer를 적용함으로써 계산 복잡도를 낮추고, 기존 Transformer 기반 GAN에서 흔히 발생하는 학습 불안정성 문제를 극복한다. LadaGAN은 다양한 해상도에서 벤치마크 데이터셋에서 기존의 합성곱형 및 Transformer 기반 GAN들을 일관되게 능가하면서도, 훨씬 더 효율적이다. 더불어, LadaGAN은 DMs와 같은 최첨단 다단계 생성 모델들과 비교해도 경쟁력 있는 성능을 보이며, 계산 자원을 수십 배에서 수백 배 이상 적게 사용한다.

선형 가산 주의(Additive-Attention) 트랜스포머를 활용한 효율적인 생성적 적대 신경망 | 최신 연구 논문 | HyperAI초신경