Command Palette
Search for a command to run...
MIT는 확산 모델에서 샘플링 지연 시간 병목 현상을 극복하기 위해 1.4~3.7배의 추론 속도 향상을 달성하는 DRiffusion을 제안합니다.

생성형 인공지능 분야에서 확산 모델은 고유한 반복적 노이즈 제거 메커니즘을 통해 생성 품질과 다양성 측면에서 기존 모델의 한계를 효과적으로 극복하며, 이미지 처리, 비디오 처리, 오디오 처리, 분자 설계 등 다양한 첨단 분야에 널리 적용되고 있습니다. 그러나 이러한 "고품질을 위한 시간" 정제 과정은 일반적으로 높은 정확도의 결과를 얻기 위해 수십 번, 심지어 수백 번의 반복을 필요로 합니다.이로 인해 샘플링 속도가 극도로 느려지고 추론 비용이 높아집니다.이는 확산 모델이 실시간 적용 및 대규모 배포로 나아가는 데 있어 핵심적인 병목 현상이 되었습니다.
느린 샘플링 문제를 해결하기 위해 연구자들은 정류 흐름(rectified flow) 및 증류(distillation)와 같은 가속 방법을 제안해 왔습니다. 정류 흐름은 노이즈 제거 경로를 최적화하여 무효 반복 횟수를 줄이고, 증류는 지식 증류를 사용하여 모델을 경량화합니다. 그러나 높은 속도 향상률을 추구하기 위해 샘플링 단계 수를 급격하게 줄이면,두 방법 모두 출력물의 품질(세부 묘사 손실 및 질감 흐림 등)을 크게 저하시키며, 증류 과정은 결과의 다양성을 심각하게 감소시킬 수도 있습니다.
병렬화 기법은 품질 저하 없이 보완적인 접근 방식을 제공하지만, 기존 시스템 수준 방법은 U-Net 및 Transformer와 같은 모델 아키텍처에 의해 제한되어 활용성이 떨어집니다. 확산 과정을 미분 방정식으로 모델링하고 효율적인 솔버를 설계하는 수학적 방법은 주류 프레임워크와의 호환성이 떨어지고 원래 샘플링 분포에서 벗어나기 쉽습니다. 이러한 해결책들은 모두 확산 모델의 고유한 직렬 의존성, 즉 각 노이즈 제거 단계가 이전 단계의 출력에 의존한다는 문제를 근본적으로 해결하지 못합니다.
이러한 문제를 해결하기 위해 MIT 연구진은 최근 근본적인 문제에 접근하여 간결한 수학적 발견과 혁신적인 스케줄링 모델을 통해 확산 프레임워크 내에 숨겨진 내재적 병렬성을 최초로 입증했습니다. 이를 바탕으로,연구진은 DRiffusion 확산 모델의 초안 작성 및 개선 방안을 제안했습니다.시스템 수준 방법과 수학적 방법의 장점을 결합함으로써 생성 품질을 희생하지 않고도 상당한 속도 향상을 달성하여 확산 모델에서 높은 정확도와 샘플링 효율성의 균형을 맞추는 새로운 솔루션을 제공합니다.
"DRiffusion: Draft-and-Refine 프로세스를 통해 확산 모델을 손쉽게 병렬화"라는 제목의 관련 연구 결과가 arXiv에 사전 공개되었습니다.
연구 하이라이트:
* DRiffusion의 "초안-정제" 병렬 프레임워크를 개척하여 확산 모델의 내재적 병렬성을 밝혀냈습니다.
* 공격적인 가속 모드와 보수적인 가속 모드를 모두 제공하여 품질과 속도 사이에서 유연한 균형을 선택할 수 있습니다.
* 다중 모델 현장 테스트에서 실제 처리 속도가 1.4배에서 3.7배까지 향상되었으며, 기존 방식 대비 손실 없는 생성 품질과 종합적인 우수성을 보여줍니다.

서류 주소:
https://arxiv.org/abs/2603.25872
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "DRiffusion"이라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.
MS-COCO 데이터셋: 5,000개의 이미지와 25,000개의 설명으로 구성되어 있습니다.
본 실험에서는 5,000개의 이미지를 포함하는 MS-COCO 2017 검증 세트를 벤치마크 데이터셋으로 사용했습니다.각 이미지에는 5줄의 설명 텍스트가 함께 제공됩니다. 표준 관행에 따라, 생성된 이미지와 참조 텍스트 간의 일대일 대응을 보장하고 평가의 정확성을 확보하기 위해 각 이미지의 첫 번째 설명 텍스트만 이미지-텍스트 정렬 평가에 사용됩니다.
기존 측정 지표들이 세밀한 시각적 선호도를 충분히 반영하지 못하는 점을 고려하여, 본 연구에서는 PickScore와 Human Preference Score v2.1(HPSv2.1)을 보완적인 평가 도구로 추가했습니다. 효율성 평가를 위해 최대 4개의 NVIDIA V100 GPU를 사용했으며, 여러 차례의 안정 상태 실행을 통해 평균 샘플링 지연 시간을 측정했습니다. 단일 GPU 확산 모델 기준선 대비 상대적인 속도 향상과 함께, 본 연구에서 제안하는 방법으로 인해 발생하는 추가 메모리 오버헤드를 보고합니다.
기준선과 비교하기 위해 대표적인 확산 모델 가속 방법 두 가지, 즉 직접 건너뛰기(샘플링 단계 수 감소)와 AsyncDiff(서브네트워크를 서로 다른 장치에 분산시키고 비동기 샘플링을 수행하여 노이즈 제거를 병렬화)를 선택했습니다. 평가의 일관성을 확보하기 위해 연구진은 동일한 측정 설정에서 AsyncDiff의 공식 구현을 기반으로 실험 결과를 재현했습니다.
DRiffusion: 초안 작성-정제 과정을 통해 확산 모델을 손쉽게 병렬화하세요
DRiffusion의 설계는 다음과 같은 근본적인 질문에 기반합니다. 확산 모델이 여러 시간 단계에 걸쳐 노이즈 예측을 동시에 계산할 수 있을까요? 기존 확산 모델에서는 각 노이즈 제거 단계가 이전 단계의 출력 상태에 의존하기 때문에 이 목표를 직접적으로 달성하기 어렵습니다.단계 건너뛰기 전환은 이러한 한계를 극복하는 새로운 관점을 제공합니다.건너뛰기 연산을 독립적으로 호출 가능한 로컬 연산자로 간주할 수 있다면, 전체 궤적을 따라 단계적으로 진행하지 않고도 중간 상태를 직접 구성할 수 있으므로 시간 단계에 걸쳐 병렬 계산이 가능해집니다.
점프 전환이라는 개념 자체는 새로운 것이 아닙니다. 아래 그림에서 볼 수 있듯이, 연속 시간 관점에서 시스템 동역학은 더 긴 시간 간격에 걸쳐 통합될 수 있으며, 중간 단계를 건너뛰는 것은 자연스러운 동작입니다. 그러나 현재...확산 모델 프레임워크는 일반적으로 이러한 자유도를 전역 수준에서만 활용합니다(예: 시간 단계 순서 재선택).로컬에서 호출하여 필요에 따라 사용할 수 있는 단계별 메커니즘이 부족합니다.

이를 위해,DRiffusion은 먼저 점프 전환을 연산자로 변환합니다.특히, DDPM, DDIM과 같은 주류 확산 모델 및 상미분 방정식(ODE) 기반 솔버에 대해 통합된 점프 전이 공식이 도출되었으며, 이를 통해 전역 시간 단계 스케줄을 재정의할 필요 없이 임의의 두 확산 상태 간에 직접적인 연결이 가능해집니다.
DDPM을 예로 들면, 현재 상태 x_t에서 미래 상태 x_t-k로의 점프 전환은 폐쇄형 해법을 갖습니다. DDIM 또한 주변 분포의 일관성을 기반으로 일반화될 수 있으며, 상미분 방정식 모델링에서 중간 단계를 건너뛰는 것은 더 큰 수치 적분 단계 크기를 직접 사용하는 것과 같습니다. 이 연산자의 도입은 샘플링 패턴 설계의 유연성을 크게 향상시키고 후속 병렬화의 기반을 마련합니다.
점프 전환 연산자를 기반으로 함DRiffusion의 핵심 워크플로는 초안 생성과 다듬기라는 두 단계로 요약할 수 있습니다.기준 시점 t에서의 상태 x_t가 주어졌을 때, 이후 k개의 시간 단계에 대한 상태는 점프 전이를 사용하여 병렬로 생성되어 초안 추정치를 얻습니다. 단계 크기가 증가함에 따라 이러한 초안의 정확도는 후속 반복보다 약간 낮지만, 전체적인 결과는 원래의 잡음 제거된 궤적과 여전히 일관성을 유지합니다.
이후, 이러한 초안들을 병렬로 노이즈 예측기에 입력하여 해당 노이즈 추정치를 얻습니다. 그런 다음, 표준 노이즈 제거 업데이트를 수행하여 각 초안을 개선하고, 최종적으로 개선된 상태와 그에 해당하는 노이즈를 얻습니다. 이는 다음 반복을 위한 기준점으로 사용됩니다.
이 설계에는 잠재적인 문제가 있습니다. 큰 점프 스텝 크기는 노이즈 예측의 불완전성으로 인해 생성 품질 저하를 초래할 수 있습니다. 기존 연구에서도 이러한 위험성을 지적했지만, 우리의 실험 관찰 결과는 두 가지 완화 요인을 보여줍니다.첫 번째,인지되는 품질의 약간의 저하는 표현 능력의 상당한 감소를 의미하지 않습니다. 생성된 이미지 또는 잠재 벡터는 일반적으로 기본 의미론적 및 구조적 정보의 대부분을 유지합니다.두번째,노이즈 예측기가 완벽하게 정확하지는 않지만, 샘플의 적절한 주변 영역을 적절한 결과로 매핑하는 데 필요한 일반화 능력이 충분합니다. 이러한 두 가지 점을 바탕으로 DRiffusion은 큰 스트라이드를 사용하더라도 충분히 고품질의 이미지를 출력할 수 있습니다.
구현 방식 측면에서 DRiffusion은 급진적 버전과 보수적 버전, 두 가지를 포함합니다.
아래 그림에서 보는 바와 같이, 혁신적인 버전은 한 번의 반복 과정에서 여러 개의 노이즈 예측을 완전히 병렬화합니다. 통신과 같은 사소한 오버헤드를 무시하는 조건에서, 이상적인 속도 향상은 k배에 달할 수 있으며, 이는 실행 시간이 원래의 1/k로 단축됨을 의미합니다.
보수적인 버전은 먼저 (정밀한 상태에서 생성된) 고정밀 전류 잡음을 독립적으로 계산한 다음, 이를 기반으로 공격적인 버전의 프로세스를 재현하고 추가적인 시간 단계를 진행하여 2k+1배의 이상적인 속도 향상을 달성합니다. 두 버전의 핵심 아이디어는 동일합니다. 즉, 초안을 병렬 컴퓨팅 성능으로 교환하고, 정제를 통해 출력 품질을 보장하는 것입니다.

3개의 GPU를 사용하여 실제 속도에서 거의 3배의 향상을 달성했습니다.
DRiffusion의 성능을 검증하기 위해, U-Net 기반의 Stable Diffusion 2.1(SD2.1), U-Net 기반의 Stable Diffusion XL(SDXL), 그리고 흐름 매칭을 위한 Transformer 기반의 Stable Diffusion 3(SD3)을 포함하여 다양한 아키텍처와 규모의 확산 모델을 대상으로 실험을 진행했습니다. 이러한 다중 모델 적용은 기존 방법들과의 공정한 비교를 가능하게 할 뿐만 아니라, 제안된 방법의 일반성을 완벽하게 검증할 수 있도록 합니다.
정성적 결과는 아래 그림에 나타나 있습니다. 높은 가속도 비율에서,DRiffusion은 기준선의 픽셀 단위 출력을 완벽하게 재현하는 데는 어려움을 겪지만, 의미적 일관성을 일관되게 유지하고 미세한 디테일(예: 나무 질감 및 고양이 가슴의 하이라이트)을 효과적으로 보존합니다.노이즈 샘플링 단계를 적절히 생략함으로써, 가속 버전은 때때로 더 강한 대비와 더 선명한 디테일(예: 고양이 눈의 반사)을 가진 이미지를 생성할 수 있습니다. 4배에 가까운 과도한 가속은 색상 과포화 또는 미세한 아티팩트와 같은 약간의 품질 저하를 초래할 수 있지만, 전반적으로 기준 버전과의 높은 일관성을 유지합니다.

정량적 결과는 아래 표에 나와 있습니다.모든 설정에서 FID 값은 기준선에 매우 가깝고, CLIP 점수의 최대 감소폭은 0.16을 넘지 않습니다.일부 시나리오에서 FID는 방법론적 개선보다는 통계적 변동성으로 인해 약간 향상되었습니다. 추가 PickScore 및 HPSv2.1 평가에서는 평균적으로 각각 0.17과 0.43 감소한 것으로 나타났습니다. 유일한 예외는 공격적인 4-디바이스 모드에서 SD3의 경우로, HPSv2.1에서 1.50 감소했습니다. 이는 SD3의 기본 샘플링 단계 수가 28단계에 불과하고, 극단적인 단계 크기가 근사 오차를 증폭시키기 때문입니다. 네 가지 지표의 안정성과 상당한 속도 향상을 고려할 때, 이러한 품질 저하는 허용 가능한 수준입니다.

가속 성능 측면에서 보면,실제 속도 향상은 1.4배에서 3.7배 사이이며, 샘플당 총 계산 비용은 기존 모델과 거의 동일합니다.실험 데이터는 공격 모드의 지연 스케일링이 이론적 하한 O(1/N)에 가깝고 보수 모드는 O(2/(N+1))과 매우 일치함을 보여주며, 이는 DRiffusion이 효율적이고 확장 가능한 병렬화를 달성함을 증명합니다.

방법 비교 결과는 아래 표에 나와 있습니다.모든 속도 향상 그룹에서 DRiffusion은 생성 품질 측면에서 AsyncDiff 및 단순 건너뛰기 기준선보다 우수한 성능을 보였습니다.가속에 더 민감한 PickScore를 핵심 지표로 사용했을 때, DRiffusion은 성능 저하 격차를 평균 48.61 TP3T만큼 줄였으며, 4개 기기에서 최대 58.51 TP3T까지 감소시켰습니다. 가속 효과는 기기 수에 거의 선형적으로 비례하며, 가속 비율은 유사한 기기 수에서 AsyncDiff와 비슷하거나 약간 더 우수합니다.
메모리 효율성 측면에서의 이점은 더욱 두드러집니다. AsyncDiff는 최대 574MB의 추가 메모리가 필요하며, 디바이스 수가 증가함에 따라 필요한 메모리 양도 늘어나는 반면, DRiffusion은 186~226MB의 안정적인 오버헤드만 발생시킵니다. SDXL의 기본 메모리 요구량인 약 13GB와 비교하면 이 오버헤드는 무시할 수 있는 수준입니다. 배치 크기가 5일 때, AsyncDiff는 32GB 노드에서 메모리 부족 현상을 보였지만, DRiffusion은 정상적으로 작동했습니다.그 이유는 DRiffusion이 샘플링 반복 프로세스만 수정하여 모델 구조 및 핵심 계산과 분리하기 때문입니다.

요약하자면,DRiffusion은 3개의 GPU에서 생성 품질과 세밀한 디테일을 유지하면서 거의 3배의 속도 향상을 달성하여 추론 속도를 크게 개선합니다.간결한 이론적 특징과 실용적인 병렬 구현을 결합함으로써 고품질의 안정적인 실험 결과를 얻을 수 있었다.
확산 모델의 병렬화는 프로세스를 가속화합니다.
확산 모델의 병렬화는 전 세계 학계와 산업계에서 핵심 연구 분야로 자리 잡았습니다. 학계에서는 많은 선도적인 연구 기관들이 이 분야에서 획기적인 성과를 거두었습니다. MIT와 홍콩대학교가 공동으로 개발한 Fast-dLLM은 모델 재학습 없이 대규모 확산 언어 모델(긴 텍스트 생성 작업)에서 전체 처리 속도를 27.6배 향상시키면서 정확도 손실은 2% 이내로 유지합니다.
논문 제목: FAST-DLLM V2: 효율적인 블록 확산 LLM
논문 링크:https://arxiv.org/pdf/2509.26328
UC 버클리에서 개발한 StreamDiffusionV2 스트리밍 시스템은 비디오 확산 모델을 위해 SLO(서비스 수준 목표)를 인식하는 배치 스케줄러와 모션 인식 노이즈 컨트롤러를 통합하여 멀티 GPU 환경에서 비디오 생성 프레임 속도를 58FPS까지 향상시켜 실시간 생성의 컴퓨팅 성능 병목 현상을 극복합니다.
논문 제목: StreamDiffusionV2: 동적이고 상호작용적인 비디오 생성을 위한 스트리밍 시스템
논문 링크:https://arxiv.org/abs/2511.07399
기업 부문에서 NVIDIA는 하드웨어 및 소프트웨어 생태계에 병렬화 기술을 심층적으로 통합했습니다. 연산 경로 최적화와 다중 장치 협업을 통해 확산 모델의 추론 속도를 크게 향상시키고 이미지 및 비디오 생성 시나리오에서 연산 비용을 절감합니다. 한편, Stability AI는 안정 확산(Stable Diffusion) 모델 시리즈에서 병렬 샘플링 전략을 연구합니다. 배치 처리 매개변수를 최적화하고 DDIM 및 PLMS와 같이 병렬 처리를 지원하는 샘플러를 활성화함으로써 생성 품질을 유지하면서 이미지 생성 효율을 3~5배 향상시킵니다.
요약하자면, 학계와 산업계의 공동 노력으로 확산 모델의 병렬화는 기술 혁신의 핵심 주제로 떠올랐습니다. DRiffusion은 대표적인 솔루션으로서 내재된 병렬성을 활용하는 것의 실현 가능성과 효율성을 입증했습니다. 앞으로 하드웨어와 알고리즘의 긴밀한 협력을 통해 확산 모델은 높은 정확도를 유지하면서 진정한 실시간 생성 경험을 제공할 것으로 기대되며, 인공지능의 광범위한 적용을 위한 효율성 장벽을 허물 것입니다.








