효율적이고 재구성 가능하며 해상도가 가변적인 확산 모델링을 위한 스택 가능하고 건너뛸 수 있는 LEGO 브릭 학습

확산 모델은 사진 수준의 현실감 있는 이미지를 생성하는 데 뛰어나지만, 학습 및 추론 과정에서 큰 계산 비용을 수반한다. 다양한 기법들이 이러한 계산적 과제를 해결하고 있으나, 반복적 개선을 위한 효율적이고 유연한 네트워크 백본 설계는 여전히 탐색이 부족한 영역이다. 현재 널리 사용되는 U-Net이나 비전 트랜스포머 같은 아키텍처는 자원 소모가 큰 깊은 네트워크에 의존하며, 다양한 해상도의 이미지를 생성하거나 학습 시 사용한 네트워크보다 더 작은 구조로 이미지를 생성하는 데 유연성이 부족하다. 본 연구에서는 로컬 특징 강화(Local-feature Enrichment)와 글로벌 콘텐츠 조율(Global-content Orchestration)를 원활하게 통합하는 'LEGO 브릭'을 제안한다. 이러한 브릭들은 쌓아올려 테스트 시점에서 재구성 가능한 확산 모델 백본을 구성할 수 있으며, 필요에 따라 일부 브릭을 건너뛰어 추론 비용을 줄이고, 학습 데이터보다 더 높은 해상도의 이미지를 생성할 수 있다. LEGO 브릭은 MLP를 통해 로컬 영역을 풍부하게 하고, 트랜스포머 블록을 이용해 이를 변환하면서도 모든 브릭에서 일관된 전체 해상도 이미지를 유지한다. 실험 결과, LEGO 브릭은 학습 효율성을 향상시키고 수렴 속도를 가속화하며, 다양한 해상도 이미지 생성을 가능하게 하면서도 강력한 생성 성능을 유지함을 입증했다. 또한, 다른 방법과 비교해 추론 시간을 크게 단축시켜 확산 모델에 있어 중요한 성능 개선 요소로 자리매김한다. 코드 및 프로젝트 페이지는 다음 링크에서 확인할 수 있다: https://jegzheng.github.io/LEGODiffusion.