ACDiT: 순차적 조건부 모델링과 확산 변환기 사이의 보간

최근 종합적 다중모달 모델에 대한 관심이 급증하면서 다양한 모달리티의 통합이 필수적으로 대두되고 있다. 그러나 이러한 통합은 여전히 다양한 방법론의 차이로 인해 어려움을 겪고 있다. 지속적인 시각 정보 생성은 전체 시퀀스 기반의 확산( diffusion) 접근법을 요구하지만, 이는 텍스트 영역에서의 자기회귀적 모델링과는 차이를 보인다. 본 연구에서는 자기회귀적 모델링—즉, 과거의 결정론적 경험을 바탕으로 미래를 예측하는 방식—이 시각 생성 모델과 향후 통합 다중모달 모델 개발에 있어 여전히 핵심적인 역할을 한다고 주장한다. 본 논문에서는 자기회귀적 모델링과 전체 파라미터 기반 확산 간의 보간(interpolation)을 통해 시각 정보를 모델링하는 방안을 탐구한다. 핵심적으로, 우리는 ACDiT(Autoregressive blockwise Conditional Diffusion Transformer)를 제안한다. ACDiT는 확산의 블록 크기, 즉 자기회귀 단위의 크기를 유연하게 조정함으로써 토큰 단위의 자기회귀와 전체 시퀀스 확산 사이의 균형을 조절할 수 있다. ACDiT는 학습 중에 단순히 스킵-카우잘 어텐션 마스크(Skip-Causal Attention Mask, SCAM)를 생성하는 것만으로도 쉽게 구현 가능하다. 추론 과정에서는 확산 제노이징(denoising)과 자기회귀 디코딩이 반복되며, 이 과정에서 KV 캐시(KV-Cache)를 효율적으로 활용할 수 있다. 우리는 ACDiT의 효과성을 이미지 및 비디오 생성 작업에서 검증하였다. 또한, 자기회귀적 모델링의 이점을 활용함으로써, 확산 목적함수로만 학습된 ACDiT가 시각 이해 작업에도 원활하게 적용될 수 있음을 보여주었다. 자기회귀적 모델링과 확산 간의 성능 트레이드오프 분석을 통해, ACDiT가 장기 시계열 시각 생성 작업에 활용될 잠재력을 확인하였다. 이러한 강점들은 ACDiT가 미래 통합 모델의 핵심 아키텍처로 자리매김할 가능성을 시사한다.