Command Palette
Search for a command to run...
Jiacheng Liu Xinyu Wang Yuqi Lin Zhikai Wang et al

초록
확산 모델은 뛰어난 생성 품질과 조절 가능성으로 인해 현대 생성형 AI의 핵심 기반 기술로 자리 잡았다. 그러나 그 본질적인 다단계 반복 계산 및 복잡한 기반 네트워크 구조로 인해 계산량과 생성 지연이 크게 증가하며, 실시간 응용 분야에서 주요한 성능 장벽이 되고 있다. 기존의 가속 기법들은 일부 진전을 이루었지만, 적용 범위의 제한, 높은 학습 비용, 혹은 품질 저하 등의 도전 과제를 여전히 안고 있다.이러한 맥락에서, 확산 캐싱(Diffusion Caching)은 학습 없이도 적용 가능하며 아키텍처에 구애받지 않고 효율적인 추론을 가능하게 하는 유망한 접근법이다. 그 핵심 기전은 확산 과정 내부의 본질적인 계산 중복성을 탐지하고 이를 재사용하는 것이다. 모델 파라미터를 수정하지 않고도 특징 수준에서 단계 간 재사용과 계층 간 스케줄링을 가능하게 함으로써 계산량을 줄일 수 있다. 본 논문에서는 확산 캐싱의 이론적 기반과 발전 과정을 체계적으로 검토하고, 이를 분류 및 분석하기 위한 통합 프레임워크를 제안한다.대표적인 기법들을 비교 분석한 결과, 확산 캐싱은 초기의 정적 재사용(static reuse)에서 동적 예측(dynamic prediction)으로 진화하고 있음을 확인할 수 있다. 이러한 추세는 다양한 작업 환경에서 캐싱의 유연성을 향상시키며, 샘플링 최적화 및 모델 다이스틸레이션과 같은 다른 가속 기법과의 통합도 가능하게 한다. 이는 향후 다중모달 및 상호작용형 응용 분야를 위한 통합적이고 효율적인 추론 프레임워크 구축의 길을 열어준다. 우리는 이러한 패러다임이 실시간이고 효율적인 생성형 AI의 핵심 추진력이 될 것이며, 효율적인 생성 지능(Efficient Generative Intelligence)의 이론적·실용적 발전에 새로운 활력을 불어넣을 것이라고 주장한다.