Command Palette
Search for a command to run...

초록
시각적 토큰화는 자동회귀 패러다임 내에서 시각적 이해와 생성을 통합하는 데 있어 여전히 핵심적인 과제로 남아 있다. 기존의 방법들은 대규모 언어 모델의 토큰과 일치하기 위해 이산 잠재 공간 내의 토크나이저를 주로 사용하지만, 이 과정에서 발생하는 양자화 오차는 의미적 표현력을 제한하고 시각-언어 이해 능력을 저하시키는 원인이 된다. 이를 해결하기 위해 우리는 연속 잠재 공간을 기반으로 하는 새로운 시각 토크나이저 세트인 MingTok을 제안한다. MingTok은 통합적인 자동회귀 생성 및 이해를 가능하게 한다. 이해 작업은 고차원의 구분형 특징을 선호하는 반면, 생성 작업은 저수준의 컴팩트한 코드를 선호한다. 이러한 상충되는 요구를 조화시키기 위해 MingTok는 저수준 인코딩, 의미 확장, 시각 재구성의 세 단계 순차적 아키텍처를 채택한다. 이 기반 위에 구축된 Ming-UniVision는 특정 작업에 맞춘 시각적 표현을 필요로 하지 않으며, 하나의 자동회귀 예측 패러다임으로 다양한 시각-언어 작업을 통합한다. 이해와 생성을 모두 공유되는 연속 공간 내에서 다음 토큰 예측 문제로 공식화함으로써, 반복적인 이해, 생성, 편집 등 다차원적이고 컨텍스트 기반의 작업을 원활하게 지원한다. 실험적으로 우리는 통합된 연속 시각 표현이 이해 작업과 생성 작업이 토크나이저에 대해 제기하는 상충되는 요구를 조화시킴으로써, 두 영역에서 모두 최신 기술 수준의 성능을 달성함을 확인하였다. 본 연구의 발견이 연속 영역에서의 통합 시각 토크나이징 발전에 기여하기를 기대하며, 추론 코드와 모델 가중치를 공개하여 연구 공동체의 발전에 기여하고자 한다.