9일 전

Oryx MLLM: 임의 해상도에서의 필요 시 공간-시간 이해

Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
Oryx MLLM: 임의 해상도에서의 필요 시 공간-시간 이해
초록

시각 데이터는 몇 개의 픽셀에 불과한 작은 아이콘부터 수 시간에 걸친 긴 영상에 이르기까지 다양한 형태로 존재한다. 기존의 다중모달 LLM은 이러한 다양한 시각 입력을 시각 인코더에 대해 고정된 해상도로 표준화하고, LLM에 동일한 수의 토큰을 출력하는 방식을 사용한다. 그러나 이는 다중모달 이해에 비효율적이며, 짧은 시각 콘텐츠와 긴 시각 콘텐츠를 함께 처리할 때 효율성이 떨어진다. 이러한 문제를 해결하기 위해 우리는 이미지, 영상, 다중 시점 3D 장면의 공간-시간 이해를 위한 통합형 다중모달 아키텍처인 Oryx를 제안한다. Oryx는 두 가지 핵심 혁신을 통해 임의의 공간 크기와 시간 길이를 가진 시각 입력을 원활하고 효율적으로 처리할 수 있는 요청 기반 솔루션을 제공한다. 첫째, 임의의 해상도에서 이미지를 LLM 친화적인 시각 표현으로 인코딩할 수 있는 사전 훈련된 OryxViT 모델이다. 둘째, 필요에 따라 시각 토큰을 1x에서 16x까지 압축할 수 있는 동적 압축 모듈이다. 이러한 설계 특성 덕분에 Oryx는 낮은 해상도와 높은 압축률을 활용해 매우 긴 시각 컨텍스트(예: 영상)를 처리할 수 있으며, 원본 해상도와 압축 없이 문서 이해와 같은 작업에서 높은 인식 정확도를 유지할 수 있다. 아키텍처적 개선 외에도, 장기간 컨텍스트 검색 및 공간 인식 데이터에 특화된 데이터 정제 및 훈련을 통해 Oryx는 이미지, 영상, 3D 다중모달 이해 능력을 동시에 강력하게 발휘한다. 본 연구는 https://github.com/Oryx-mllm/Oryx 에서 오픈소스로 공개되었다.