
자연 데이터는 중복적이지만, 주로 사용되는 아키텍처는 입력 및 출력 공간 전체에 걸쳐 계산을 균일하게 토막내는 특징을 지닌다. 본 연구에서는 데이터의 차원과 독립적인 핵심 계산을 가능하게 하는 주목(attention)-기반 아키텍처인 순환 인터페이스 네트워크(RIN: Recurrent Interface Networks)를 제안한다. 이는 고차원 데이터의 더 스케일러블한 생성을 위한 적응형 계산을 가능하게 한다. RIN은 주로 잠재 토큰(latent tokens) 집합에 대한 전역 자기 주목(global self-attention)을 집중시키며, 교차 주목(cross-attention)을 활용해 잠재 토큰과 데이터 토큰 간의 정보를 읽고 쓰는(즉, 경로를 설정하는) 기능을 수행한다. RIN 블록을 쌓음으로써 하향식(data → latent)과 상향식(latent → data) 피드백이 가능해지며, 더 깊고 표현력 있는 경로 설정이 가능해진다. 이러한 경로 설정은 도전 과제를 수반하지만, 반복 계산 환경에서는 작업(및 경로 설정 문제)이 점진적으로 변화하기 때문에 이는 덜 심각한 문제로 작용한다. 예를 들어, 확산 모델을 활용한 반복적 생성 과정에서 그러한 특성이 유리하게 작용한다. 본 연구에서는 역확산 과정의 각 전방 계산 단계에서 이전 계산에서 얻은 잠재 토큰을 조건으로 하여 잠재 토큰을 조건화하는 방법—즉, 잠재 자기 조건화(latent self-conditioning)—를 통해 반복성을 효과적으로 활용하는 방법을 제시한다. RIN은 이미지 및 영상 생성을 위한 최첨단 픽셀 기반 확산 모델을 구현하며, 캐스케이드나 안내 지시 없이 1024×1024 이미지까지 확장 가능하다. 또한 도메인에 관계없이 적용 가능하며, 2D 및 3D U-Net보다 최대 10배 더 효율적인 성능을 보인다.