HyperAI

清华智能产业研究院（AIR）와 字节跳동 Seed, SIA-Lab 공동 연구팀이 초고속 확산형 언어모델 ‘Seed Diffusion Preview’을 공개했다. 이 모델은 초당 2146토큰 이상의 속도로 텍스트를 생성해 기존 자회귀 모델 대비 5.4배 빠르며, Google의 Gemini Diffusion을 넘어선 성능을 기록했다. 특히 코드 생성 및 편집과 같은 구조적 추론 작업에서 우수한 성능을 보이며, 확산 모델이 언어 생성의 새로운 표준이 될 가능성을 제시한다. 기존 자회귀 모델은 순차적 생성으로 인해 속도와 전반적 제어에 한계가 있었지만, Seed Diffusion은 확산 모델의 병렬 생성 특성을 활용해 고속·고품질 생성을 실현했다. 핵심 기술로는 두 단계 수업 학습, 구조적 사전 지식 통합, 동일 전략 학습, 블록 병렬 시스템 최적화 등이 있다. 특히 동일 전략 학습은 생성 단계 수를 최소화하면서도 품질을 유지하는 데 성공했으며, 편집 거리 기반 손실 함수로 안정적인 학습을 가능하게 했다. 또한, 모델은 키를 집었지만 사용하지 못하거나 문을 보고도 벽을 따라 가는 등, ‘보지만 이해하지 못하는’ 시스템적 오류를 보이는 기존 다모달 모델의 한계를 지적하며, 복잡한 시각적 추론 능력을 평가하기 위한 3D 미로 탈출 환경 ‘EscapeCraft’도 함께 제안했다. 실험 결과, GPT-4o 같은 선도 모델조차 대부분의 과제에서 진정한 이해 없이 우연히 성공하는 수준이었으며, 실제 사고 능력이 부족함을 드러냈다. Seed Diffusion Preview는 단순한 속도 향상이 아니라, 언어 모델의 학습과 생성 방식 자체를 혁신할 수 있는 잠재력을 지닌 기술로 평가된다. 향후 확산 모델이 구조적 추론과 대규모 병렬 생성의 중심으로 자리 잡을 수 있을지 주목된다.

清华AIR联合字节跳动发布Seed Diffusion Preview：每秒生成2146词，扩散模型颠覆语言生成范式

Related Links