13일 전

고정을 넘어서: 확산 대규모 언어 모델을 위한 가변 길이 노이즈 제거

Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin
고정을 넘어서: 확산 대규모 언어 모델을 위한 가변 길이 노이즈 제거
초록

확산 대규모 언어 모델(Diffusion Large Language Models, DLLMs)은 주류를 이루고 있는 순차적 생성 대규모 언어 모델(Autoregressive Large Language Models)에 대한 강력한 대안으로 부상하고 있으며, 병렬적 효율적인 생성과 전역적 문맥 모델링이 가능한 특징을 지닌다. 그러나 DLLMs의 실용적 적용은 핵심적인 아키텍처적 제약에 의해 제한되고 있다. 즉, 미리 정해진 고정된 생성 길이를 요구해야 한다는 점이다. 이러한 고정된 길이 할당은 문제적 trade-off를 초래한다. 생성 길이가 부족할 경우 복잡한 작업에서 성능이 저하되며, 반면 길이가 지나치게 길어지면 계산 부담이 크게 증가하고 때로는 성능 저하로 이어진다. 추론 프레임워크는 고정된 구조를 가지지만, 우리는 모델 내부에 특정 작업에 최적의 응답 길이와 관련된 내부 신호가 존재한다는 점을 관찰하였다. 이 격차를 해소하기 위해, 우리는 이러한 은닉 신호를 활용하여, 확산 대규모 언어 모델에 대한 동적 적응적 길이 확장(Dynamic Adaptive Length Expansion)을 가능하게 하는 새로운 훈련 없이 사용할 수 있는 복원 전략인 DAEDAL을 제안한다. DAEDAL은 두 단계로 작동한다. 1) 복원 과정 전에, DAEDAL은 짧은 초기 길이에서 시작하여, 시퀀스 완성도 측정 기준을 기반으로 반복적으로 길이를 확장하여 대략적인 작업 적합 길이로 도달한다. 2) 복원 과정 중에는, 마스크 토큰 삽입을 통해 생성이 부족한 영역을 정확히 식별하고 동적으로 확장함으로써 최종 출력이 완전히 발전된 상태로 유지되도록 한다. DLLMs에 대한 광범위한 실험 결과, DAEDAL은 정교하게 튜닝된 고정 길이 기준 모델과 비슷하거나 일부 사례에서는 더 우수한 성능을 달성하면서도, 더 높은 유효 토큰 비율을 통해 계산 효율성을 동시에 향상시킴을 확인하였다. 이처럼 고정된 길이 제약을 해결함으로써 DAEDAL은 DLLMs의 잠재력을 새롭게 열어주며, 순차적 생성 모델과의 핵심적 격차를 메우고, 더 효율적이고 강력한 생성 기술의 길을 열어주었다.