Command Palette

Search for a command to run...

13일 전

TiDAR: 확산에서 생각하고, 자동 회귀적으로 말하기

Jingyu Liu Xin Dong Zhifan Ye Rishabh Mehta Yonggan Fu Vartika Singh Jan Kautz Ce Zhang Pavlo Molchanov

TiDAR: 확산에서 생각하고, 자동 회귀적으로 말하기

초록

확산 언어 모델은 빠른 병렬 생성 가능성을 지닌 반면, 인과 구조가 언어 모델링과 자연스럽게 부합하는 점에서 자동회귀(AR) 모델은 일반적으로 높은 품질을 달성한다. 이는 근본적인 질문을 제기한다. 고처리량, 높은 GPU 활용도, AR 모델 수준의 품질을 동시에 달성할 수 있을까? 기존의 방법들은 이러한 두 측면을 효과적으로 균형 있게 조화시키지 못한다. 일부는 순차적 초안 작성(보어스티브 디코딩)을 위해 약한 모델을 사용함으로써 AR 모델의 우수성을 우선시하지만, 이는 초안 작성 효율을 저하시키며, 다른 방법들은 확산 모델에 왼쪽에서 오른쪽으로의 AR 유사 디코딩 논리를 도입하나, 여전히 품질 저하가 발생하고 병렬 처리 잠재력도 잃는다. 이에 우리는 TiDAR를 제안한다. TiDAR는 한 번의 전방 전파(foward pass) 내에서 특수 설계된 구조적 어텐션 마스크를 사용해, 확산 모델을 통해 토큰을 초안(Think)하고, 최종 출력을 자동회귀적으로 샘플링(Talk)하는 시퀀스 수준의 하이브리드 아키텍처이다. 이 설계는 GPU의 여유 계산 밀도를 효과적으로 활용함으로써 초안 작성과 검증 능력 사이에 강력한 균형을 이룬다. 또한 TiDAR는 독립형 모델로서 서빙에 유리한 구조(저오버헤드)로 설계되어 있다. 우리는 1.5B 및 8B 규모에서 AR 모델, 보어스티브 디코딩, 확산 모델 변형들과의 비교를 통해 TiDAR의 성능을 광범위하게 평가하였다. 병렬적인 초안 작성 및 샘플링과 정확한 KV 캐시 지원 덕분에, TiDAR는 보어스티브 디코딩보다 측정된 처리량에서 우월하며, Dream 및 Llada와 같은 확산 모델보다 효율성과 품질 모두에서 앞선다. 특히 주목할 점은, TiDAR가 AR 모델과의 품질 격차를 처음으로 해소하면서도 초당 4.71배에서 5.91배 더 많은 토큰을 생성한다는 점이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
TiDAR: 확산에서 생각하고, 자동 회귀적으로 말하기 | 연구 논문 | HyperAI초신경