2달 전
Groma: 다중 모드 대형 언어 모델의 근거를 위한 국지화된 시각 토큰화
Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi

초록
우리는 다중 모드 대형 언어 모델(Multimodal Large Language Model, MLLM)인 Groma를 소개합니다. Groma는 전체 이미지 이해를 넘어서 지역 수준의 작업, 예를 들어 지역 캡셔닝과 시각적 정착(visual grounding)에 능숙합니다. 이러한 기능은 이미지 입력을 관심 영역으로 분해하고 이를 지역 토큰(region tokens)으로 인코딩하는 로컬라이즈된 시각 토큰화 메커니즘(localized visual tokenization mechanism)을 기반으로 합니다. 사용자 지시문과 모델 응답에 지역 토큰을 통합함으로써, Groma는 사용자가 지정한 지역 입력을 이해하고 텍스트 출력을 이미지에 정확히 연결시키는 것을 원활하게 수행할 수 있습니다. 또한, Groma의 시각적으로 정착된 대화 능력을 강화하기 위해, 강력한 GPT-4V와 시각적 프롬프팅 기술을 활용하여 시각적으로 정착된 지시문 데이터셋을 구성했습니다. 언어 모델이나 외부 모듈에 의존하여 로컬라이제이션(localization)을 수행하는 MLLM들과 비교할 때, Groma는 표준 참조 및 정착 벤치마크에서 일관되게 우수한 성능을 보여주며, 이는 로컬라이제이션을 이미지 토큰화에 내재시키는 방법의 장점을 강조합니다.프로젝트 페이지: https://groma-mllm.github.io/.