2달 전

GSVA: 다중 모드 대형 언어 모델을 통한 일반화된 분할

Xia, Zhuofan ; Han, Dongchen ; Han, Yizeng ; Pan, Xuran ; Song, Shiji ; Huang, Gao
GSVA: 다중 모드 대형 언어 모델을 통한 일반화된 분할
초록

일반화된 지시 표현 분할 (Generalized Referring Expression Segmentation, GRES)은 전통적인 RES의 범위를 확장하여 하나의 표현으로 여러 객체를 참조하거나 이미지에 없는 빈 대상을 식별하는 기능을 포함합니다. GRES는 이미지 내 인스턴스들의 복잡한 공간적 관계를 모델링하고 존재하지 않는 피참조물을 식별하는 데 어려움을 제기합니다. 최근 멀티모달 대형 언어 모델 (Multimodal Large Language Models, MLLMs)은 이러한 복잡한 시각-언어 작업에서 큰 발전을 보여주었습니다. 대형 언어 모델 (Large Language Models, LLMs)과 시각 모델을 연결함으로써 MLLMs은 시각 입력이 있는 맥락을 이해하는 데 능숙합니다. 이 중 LISA는 대표적으로 [SEG] 토큰을 채택하여 분할 마스크 디코더, 예를 들어 SAM,를 유도하여 MLLMs이 RES 작업에서 작동하도록 합니다. 그러나 현재까지의 GRES 해결책들은 여전히 만족스럽지 않으며, 현재의 분할 MLLMs은 사용자가 단일 프롬프트로 여러 주제를 참조하거나 어떤 이미지 대상과도 일치하지 않는 설명을 제공하는 경우를 올바르게 처리하지 못합니다. 본 논문에서는 이러한 간극을 메우기 위해 일반화된 분할 시각 지원체 (Generalized Segmentation Vision Assistant, GSVA)를 제안합니다. 특히 GSVA는 [SEG] 토큰을 재사용하여 여러 마스크 참조를 동시에 지원하도록 분할 모델을 유도하며, 혁신적으로 [REJ] 토큰 생성을 학습하여 명시적으로 빈 대상을 거부합니다. 실험 결과 GSVA가 GRES 문제 해결에 효과적이며, gRefCOCO 데이터셋에서 새로운 기록을 세우고 상당한 개선점을 보였습니다. GSVA는 또한 다양한 전통적인 지시 분할 및 이해 작업에서도 효과성을 입증하였습니다.

GSVA: 다중 모드 대형 언어 모델을 통한 일반화된 분할 | 최신 연구 논문 | HyperAI초신경