Command Palette
Search for a command to run...
Haoyang Zheng Xinyang Liu Cindy Xiangrui Kong Nan Jiang Zheyuan Hu Weijian Luo Wei Deng Guang Lin

초록
인공지능 시대에서 빠르고 고품질의 언어 생성은 사람들의 궁극적인 목표로 여겨져 왔다. 본 연구에서는 사전 훈련된(마스킹된) 이산 확산 언어 모델(dLLM)을 초기 상태로 삼고, 몇 단계 내에 생성 가능한 학습 기반의 학생 모델을 추출하는 방법인 이산 확산 분산 지시(DiDi-Instruct)를 제안한다. DiDi-Instruct 모델은 dLLM 교사 모델 및 GPT-2 기준 모델과 비교해 유사하거나 더 우수한 성능을 달성하면서 동시에 최대 64배의 가속 효과를 제공한다. DiDi-Instruct의 이론적 기반은 적분 KL-발산 최소화에 기반한 새로운 프레임워크로, 실용적인 훈련 알고리즘을 도출한다. 또한, 그룹화된 보상 정규화(grouped reward normalization), 중간 상태 일치(intermediate-state matching), 보상 유도 선조 샘플러(reward-guided ancestral sampler)를 도입하여 훈련 안정성, 모델 커버리지, 추론 품질을 크게 향상시켰다. OpenWebText 데이터셋에서 DiDi-Instruct는 8개의 비용 계산 횟수(NFE) 기준으로 62.2의 퍼플렉시티를, 128개의 NFE 기준으로 18.4의 퍼플렉시티를 달성하며 기존의 가속화된 dLLM 및 GPT-2 기준 모델을 능가한다. 이러한 성능 향상은 거의 무시할 수 있는 엔트로피 손실(약 )을 동반하며, 경쟁적인 dLLM 증류 방법에 비해 추가적인 훈련 시간을 이상 단축시킨다. 또한 광범위한 제거 실험(ablation studies), 모델 확장 실험, 그리고 이산 단백질 서열 생성을 통한 실험을 통해 DiDi-Instruct의 강건성과 효과성을 추가로 검증하였다. 결론적으로, DiDi-Instruct는 빠르고 효율적이면서도 효과적인 증류 방법으로, 언어 생성을 눈 깜짝할 사이에 가능하게 한다.