2달 전
HyperSeg: 대형 언어 모델을 활용한 보편적인 시각적 세그멘테이션 연구
Cong Wei; Yujie Zhong; Haoxian Tan; Yong Liu; Zheng Zhao; Jie Hu; Yujiu Yang

초록
본 논문은 Visual Large Language Models(VLLMs)의 강력한 추론 능력을 활용하여 이미지 및 비디오 인식을 위한 보편적 세그멘테이션을 다루는 것을 목표로 합니다. 현재 통합 세그멘테이션 방법들이 상당한 진전을 이뤘음에도 불구하고, 이미지와 비디오 시나리오에 대한 적응성 부족과 복잡한 추론 세그멘테이션의 한계로 인해 다양한 도전적인 지시사항을 처리하고 미세한 시각-언어 상관관계를 정확히 이해하는 것이 어려웠습니다. 우리는 이러한 문제를 해결하기 위해 HyperSeg를 제안합니다. HyperSeg는 픽셀 단위의 이미지 및 비디오 인식을 위한 첫 번째 VLLM 기반 보편적 세그멘테이션 모델로, 일반적인 세그멘테이션 작업뿐만 아니라 강력한 추론 능력과 세계 지식을 요구하는 더 복잡한 추론 인식 작업도 포함합니다. 또한, VLLMs의 인식 능력과 미세한 시각 정보를 최대한 활용하기 위해 HyperSeg는 하이브리드 엔티티 인식 모듈과 미세 시각 인식 모듈을 통합하여 다양한 세그멘테이션 작업을 수행합니다. 시간적 어댑터와 결합된 HyperSeg는 시간 정보에 대한 포괄적인 이해를 달성합니다. 실험 결과들은 우리의 통찰력이 보편적인 이미지 및 비디오 세그멘테이션 작업, 특히 더 복잡한 추론 인식 작업에서 효과적임을 입증하였습니다. 본 연구의 코드는 공개되어 있습니다.