디퓨전 LLM은 이산 디퓨전 강제를 통해 AR보다 빠른 추론이 가능하다

확산형 대규모 언어 모델(Diffusion Large Language Models, dLLMs)은 텍스트 생성 분야에서 순차적 생성(autoregressive, AR) LLMs의 유망한 대안으로 부상하고 있으며, 단일 반복 내에서 여러 토큰을 동시에 복원할 수 있는 잠재력을 지닌다. 그러나 현재까지 공개된 dLLMs 중 어떤 모델도 크기가 유사한 AR LLMs보다 뛰어난 추론 속도를 달성하지 못한 실정이다. 본 논문은 단순하면서도 효과적인 전략인 이산 확산 강제(Discrete Diffusion Forcing, D2F)를 통해 이 한계를 돌파한다. D2F는 dLLMs에 다음과 같은 두 가지 핵심 기능을 부여한다: (1) 블록 단위 순차적 생성을 통해 KV 캐시를 활용할 수 있도록 함; (2) 블록 간 병렬 추론을 위해 이전 블록의 완료를 기다리지 않고 다음 토큰을 예측할 수 있음. 이를 통해 기존의 순수 dLLMs는 효율적인 추론을 가능하게 하는 AR-확산 하이브리드 패러다임으로 재구성된다. D2F는 사전 학습된 dLLMs를 기반으로 비대칭적 증류(asymmetric distillation) 과정을 통해 구현할 수 있다. 또한, 효율성과 성능 사이의 균형을 조절할 수 있는 파이프라인 병렬 추론 알고리즘을 제안한다. 실험 결과, D2F를 적용한 dLLMs는 GSM8K 벤치마크에서 LLaMA3 및 Qwen2.5보다 추론 속도가 2.5배 이상 빠르며, LLaDA 및 Dream과 같은 순수 dLLMs에 비해 속도는 50배 이상 향상되면서도 출력 품질은 유사한 수준을 유지한다. 코드는 다음 주소에서 공개되어 있다:https://github.com/zhijie-group/Discrete-Diffusion-Forcing