13일 전
다중모달 언급 세그멘테이션: 종합적 고찰
Henghui Ding, Song Tang, Shuting He, Chang Liu, Zuxuan Wu, Yu-Gang Jiang

초록
다중모달 참조 세그멘테이션은 텍스트 또는 음성 형식의 참조 표현을 기반으로 이미지, 영상, 3D 시각적 장면 등 다양한 시각적 환경 속에서 대상 객체를 세그멘테이션하는 것을 목표로 한다. 이 작업은 사용자 지시에 기반한 정확한 객체 인지가 필요한 실용적 응용 분야에서 핵심적인 역할을 한다. 지난 10년간 컨볼루션 신경망, 트랜스포머, 대규모 언어 모델의 발전에 힘입어 다중모달 커뮤니티에서 큰 주목을 받으며, 다중모달 인지 능력이 크게 향상되었다. 본 논문은 다중모달 참조 세그멘테이션 분야에 대한 포괄적인 조사 보고서를 제공한다. 먼저, 이 분야의 배경을 소개하며 문제 정의 및 일반적으로 사용되는 데이터셋들을 설명한다. 이후 참조 세그멘테이션을 위한 통합된 메타 아키텍처를 요약하고, 이미지, 영상, 3D 장면 등 세 가지 주요 시각적 환경에서의 대표적 방법들을 검토한다. 또한 현실 세계의 복잡성에 대응하기 위한 일반화된 참조 표현(GREx, Generalized Referring Expression) 기법과 관련된 작업 및 실용적 응용 사례를 논의한다. 표준 벤치마크에서의 광범위한 성능 비교 결과도 제시한다. 관련 연구 동향은 지속적으로 업데이트되며, GitHub 페이지(https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation)에서 확인할 수 있다.