11일 전

시드 디퓨전: 고속 추론이 가능한 대규모 디퓨전 언어 모델

\Yuxuan Song\, \ Zheng Zhang\, \ Cheng Luo\, \ Pengyang Gao\, \ Fan Xia\, \ Hao Luo\, \ Zheng Li\, \ Yuehang Yang\, \ Hongli Yu\, \ Xingwei Qu\, \ Yuwei Fu\, \ Jing Su\, \ Ge Zhang\, \ Wenhao Huang\, \ Mingxuan Wang\, \ Lin Yan\, \ Xiaoying Jia\, \ Jingjing Liu\, \ Wei-Ying Ma\, \ Ya-Qin Zhang\, \ Yonghui Wu\, \ Hao Zhou\

논문 세부 정보 보기

초록

우리는 이산 상태 확산 기반의 대규모 언어 모델인 'Seed Diffusion Preview'를 제안한다. 이 모델은 매우 빠른 추론 속도를 제공하며, 순차적이지 않은 병렬 생성 방식을 통해 토큰 단위 디코딩의 본질적 지연 문제를 크게 완화한다. 최근 들어 이러한 접근 방식의 효과가 입증된 바 있다(예: Mercury Coder, Gemini Diffusion). Seed Diffusion Preview는 H20 GPU 기반에서 초당 2,146 토큰의 추론 속도를 달성하며, 다양한 표준 코드 평가 벤치마크에서 경쟁력 있는 성능을 유지한다. 이는 현존하는 Mercury 및 Gemini Diffusion보다 훨씬 빠르며, 코드 모델의 속도-품질 페어토(frontier)에서 새로운 최고 수준의 성과를 수립했다.