Command Palette

Search for a command to run...

2일 전

SDAR: 확장 가능한 시퀀스 생성을 위한 유기적 확산-자기회귀 패러다임

SDAR: 확장 가능한 시퀀스 생성을 위한 유기적 확산-자기회귀 패러다임

초록

우리는 자동회귀(autoregressive, AR) 모델의 훈련 효율성과 확산(diffusion) 모델의 병렬 추론 능력을 통합하는 새로운 패러다임인 SDAR(Synergistic Diffusion-Autoregression)을 제안한다. 기존의 비용이 큰 엔드투엔드 확산 훈련 대신, SDAR는 데이터 효율적인 짧은 적응 과정을 통해 잘 훈련된 AR 모델을 블록 단위 확산 모델로 가볍게 변환하는 경량 패러다임 전환을 수행한다. 추론 시점에서는 블록 간에 자동회귀적으로 시퀀스를 생성함으로써 전역적 일관성을 확보하고, 각 블록 내의 모든 토큰을 이산 확산 과정을 통해 병렬로 디코딩한다. 광범위한 실험 결과는 AR 모델이 마스킹된 확산 모델보다 훨씬 더 계산 효율적임을 입증하며, 이는 모델 적응을 위한 견고한 기반을 제공한다. 이러한 통찰을 바탕으로, SDAR는 최소한의 비용으로 효율적인 AR에서 확산 모델로의 변환을 달성하며, AR 수준의 성능을 유지하면서 병렬 생성을 가능하게 한다. 밀도 높은 아키텍처와 Mixture-of-Experts(MoE) 아키텍처를 대상으로 한 확장성 연구 결과, SDAR는 성능 희생 없이 확장 가능함을 확인했다. 모델이 커질수록 블록 크기와 디코딩 임계치에 대한 강건성이 향상되며, 정확도 손실 없이 더 큰 속도 향상을 달성한다. 효율성 외에도, SDAR는 향상된 추론 능력과 도메인 적응성도 보여준다. 300억 파라미터 규모의 MoE 모델은 GPQA와 ChemBench와 같은 도전적인 과학적 추론 벤치마크에서 AR 기반 모델을 능가하며, 테스트 시점 확장 기법(예: 다수결 투표, pass@k)을 적용할 경우 추가적인 성능 향상을 얻는다. 이러한 결과들은 SDAR가 확장 가능하고 고처리량 추론을 위한 자동회귀와 확산의 장점을 결합한 실용적인 패러다임임을 입증한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
SDAR: 확장 가능한 시퀀스 생성을 위한 유기적 확산-자기회귀 패러다임 | 연구 논문 | HyperAI초신경