LISA: 대형 언어 모델을 통한 추론 세그멘테이션

최근 몇 년 동안 인식 시스템은 놀라운 발전을 이루어냈지만, 여전히 시각 인식 작업을 수행하기 전에 대상 물체를 식별하기 위해 명시적인 인간의 지시나 사전 정의된 범주에 의존하고 있습니다. 이러한 시스템들은 사용자의 암묵적인 의도를 능동적으로 추론하고 이해할 수 없습니다. 본 연구에서는 새로운 분할 작업인 '추론 분할'을 제안합니다. 이 작업은 복잡하고 암묵적인 쿼리 텍스트가 주어졌을 때 분할 마스크를 출력하도록 설계되었습니다. 또한, 복잡한 추론과 세계 지식을 포함하여 평가 목적으로 1,000개 이상의 이미지-지시사항-마스크 데이터 샘플로 구성된 벤치마크를 구축하였습니다. 마지막으로, LISA(Large Language Instructed Segmentation Assistant)를 소개합니다. LISA는 다중 모드 대형 언어 모델(LLM)의 언어 생성 기능을 계승하면서 동시에 분할 마스크를 생성하는 능력을 갖추고 있습니다. 우리는 원래 어휘에 <SEG> 토큰을 추가하고, 분할 기능을 활성화하기 위해 '임베딩-아즈-마스크' 패러다임(Embedding-as-Mask paradigm)을 제안하였습니다. 특히, LISA는 복잡한 추론과 세계 지식이 관련된 경우에도 처리할 수 있으며, 추론이 없는 데이터셋에서만 학습되어도 강력한 제로샷(zero-shot) 능력을 보여줍니다. 또한, 단 239개의 추론 분할 데이터 샘플로 미세 조정(fine-tuning)하면 성능이 더욱 향상됩니다. 양적 및 질적 실험 결과 모두 우리의 방법이 다중 모드 LLMs에 새로운 추론 분할 기능을 효과적으로 활성화한다는 것을 입증하였습니다. 코드, 모델, 그리고 데이터는 https://github.com/dvlab-research/LISA에서 이용 가능합니다.