Fast-dLLM: KV 캐시 및 병렬 디코딩을 활용한 훈련 없이 확산 LLM 가속화
Wu, Chengyue ; Zhang, Hao ; Xue, Shuchen ; Liu, Zhijian ; Diao, Shizhe ; Zhu, Ligeng ; Luo, Ping ; Han, Song ; Xie, Enze
발행일: 6/1/2025

초록
확산 기반 대형 언어 모델(Diffusion LLMs)은 병렬 디코딩 기능을 활용한 비자기회귀적 텍스트 생성에서 잠재력을 보여주고 있습니다. 그러나 오픈 소스 확산 LLMs의 실제 추론 속도는 키-밸류(KV) 캐시 부족과 동시에 여러 토큰을 디코딩할 때의 품질 저하로 인해 자기회귀 모델에 뒤처지는 경우가 많습니다. 이 격차를 해소하기 위해, 양방향 확산 모델에 맞춤화된 새로운 블록별 근사 KV 캐시 메커니즘을 소개합니다. 이 메커니즘은 성능 저하를 거의 유발하지 않으면서 캐시 재사용을 가능하게 합니다. 또한, 우리는 병렬 디코딩에서 생성 품질이 저하되는 근본 원인이 조건부 독립 가정 하에서의 토큰 의존성 파괴임을 확인하였습니다. 이를 해결하기 위해, 신뢰도 기반 병렬 디코딩 전략을 제안합니다. 이 전략은 신뢰도 임계값을 초과하는 토큰만 선택적으로 디코딩하여 의존성 위반을 완화하고 생성 품질을 유지합니다. LLaDA와 Dream 모델을 사용한 다양한 LLM 벤치마크 실험 결과, 최대 \textbf{27.6배 처리량} 개선이 이루어졌으며 정확도 손실은 최소화되었습니다. 이는 자기회귀 모델과의 성능 차이를 줄이고 확산 LLMs의 실용적인 배포를 위한 길을 열었습니다.