7일 전

언어 모델이 확산 모델을 능가한다 — 토크나이저가 시각 생성의 핵심이다

Lijun Yu, José Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Vighnesh Birodkar, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang
언어 모델이 확산 모델을 능가한다 — 토크나이저가 시각 생성의 핵심이다
초록

대규모 언어 모델(Large Language Models, LLMs)은 언어 생성 작업에서 주류 모델로 자리 잡았지만, 이미지 및 영상 생성 측면에서는 확산 모델(diffusion models)에 비해 성능이 떨어진다. LLM을 시각 생성에 효과적으로 활용하기 위해서는 픽셀 공간 입력을 LLM 학습에 적합한 이산 토큰으로 매핑하는 시각 토크나이저가 핵심적인 역할을 한다. 본 논문에서는 동일한 토큰 어휘를 사용하여 영상과 이미지 모두에 대해 간결하면서도 표현력 있는 토큰을 생성하도록 설계된 영상 토크나이저인 MAGVIT-v2를 제안한다. 이 새로운 토크나이저를 탑재함으로써, ImageNet 및 Kinetics와 같은 표준 이미지 및 영상 생성 벤치마크에서 LLM이 확산 모델을 능가함을 보여준다. 또한, 본 토크나이저가 이전까지 최고 성능을 기록했던 영상 토크나이저를 초월함을 두 가지 추가 작업을 통해 입증한다. 첫째, 인간 평가 기준으로 다음 세대 영상 코덱(VCC) 수준의 영상 압축 성능을 달성하였으며, 둘째, 동작 인식 작업에 대한 효과적인 표현을 학습하는 데 성공하였다.

언어 모델이 확산 모델을 능가한다 — 토크나이저가 시각 생성의 핵심이다 | 최신 연구 논문 | HyperAI초신경