Command Palette
Search for a command to run...
Yanzuo Lu Xin Xia Manlin Zhang Huafeng Kuang Jianbin Zheng Yuxi Ren Xuefeng Xiao

초록
최근 통합 다중모달 모델은 다양한 콘텐츠를 공동으로 이해하고 생성하는 데 뛰어난 능력을 보이며 큰 주목을 받고 있다. 그러나 맥락이 점점 더 많은 교차 배치된 다중모달 토큰을 포함하게 되면서, 확산 제노이징(denoising)과 자기회귀적 해독(auto-regressive decoding)의 반복적 과정이 상당한 계산 부담을 유발한다. 이를 해결하기 위해 우리는 다중모달 이해 및 생성 작업을 동시에 가속화할 수 있도록 설계된 통합 가속 프레임워크인 Hyper-Bagel을 제안한다. 본 연구에서는 다음 토큰 예측을 위한 사전 해독(speculative decoding)과 확산 제노이징을 위한 다단계 정제(multi-stage distillation)를 활용한 분할-정복(divide-and-conquer) 전략을 적용한다. 제안하는 프레임워크는 뛰어난 성능 향상을 제공하며, 다중모달 이해 작업에서 2배 이상의 속도 향상을 달성한다. 생성 작업의 경우, 손실 없는(lossless) 6-NFE(6개의 노이즈-필터링 단계) 모델을 통해 텍스트-이미지 생성에서 16.67배, 이미지 편집에서는 22배의 속도 향상을 실현하였으며, 원본 모델의 고품질 출력 품질을 유지한다. 또한, 근접 실시간 상호작용 편집과 생성이 가능한 매우 효율적인 1-NFE 모델도 개발하였다. 고급 적대적 정제(adversarial distillation)와 인간 피드백 학습(human feedback learning)을 결합함으로써, 이 모델은 최고의 비용 효율성과 반응성(응답성)을 달성하여 복잡한 다중모달 상호작용을 매끄럽고 즉각적인 경험으로 만든다.