HyperAI초신경

확산의 이중성

Sahoo, Subham Sekhar ; Deschenaux, Justin ; Gokaslan, Aaron ; Wang, Guanghan ; Chiu, Justin ; Kuleshov, Volodymyr
발행일: 6/16/2025
확산의 이중성
초록

균일 상태 이산 확산 모델은 자기 수정 능력으로 인해 빠른 텍스트 생성을 가능하게 하므로 큰 기대를 받고 있습니다. 그러나 일반적으로 자기 회귀 모델과 마스킹 확산 모델에 비해 성능이 뒤떨어집니다. 본 연구에서는 이러한 성능 차이를 줄이기 위해 중요한 통찰력을 활용하였습니다: 균일 상태 확산 과정은 기본적인 가우시안 확산에서 자연스럽게 유래됩니다. 우리의 방법인 듀오(Duo)는 가우시안 확산에서 강력한 기술들을 전달하여 학습과 샘플링 모두를 개선합니다.첫째, 가우시안 프로세스에 의해 안내되는 커리큘럼 학습 전략을 도입하였습니다. 이 전략은 분산을 줄임으로써 학습 속도를 두 배로 높입니다. 커리큘럼 학습으로 학습된 모델들은 7개의 벤치마크 중 3개에서 제로샷 퍼플렉서티(zero-shot perplexity) 측면에서 자기 회귀 모델을 초월하였습니다.둘째, 연속적 환경에서 이산적 환경으로 적응된 일관성 증류(Consistency Distillation) 알고리즘인 이산 일관성 증류(Discrete Consistency Distillation)를 제시하였습니다. 이 알고리즘은 샘플링 속도를 두 자릿수 만큼 빠르게 함으로써 확산 언어 모델에서 몇 단계의 생성(few-step generation)을 가능하게 합니다.본 프로젝트의 코드와 모델 체크포인트는 다음 프로젝트 페이지에서 제공됩니다: http://s-sahoo.github.io/duo