11일 전

다중 모달 프로그레시브 이해를 통한 언급 세그멘테이션

Si Liu, Tianrui Hui, Shaofei Huang, Yunchao Wei, Bo Li, Guanbin Li
다중 모달 프로그레시브 이해를 통한 언급 세그멘테이션
초록

자연어 표현과 이미지/비디오가 주어졌을 때, 참조 세그멘테이션의 목표는 표현의 주어가 설명하는 실체에 대한 픽셀 수준의 마스크를 생성하는 것이다. 기존의 접근 방식은 시각적 모달리티와 언어적 모달리티 간의 특징을 일괄적인 방식으로 암묵적으로 상호작용 및 융합함으로써 이 문제를 해결해왔다. 그러나 인간은 표현 내 정보성 있는 단어들을 기반으로 점진적인 방식으로 참조 문제를 해결하는 경향이 있다. 즉, 먼저 후보 실체를 대략적으로 위치한 후, 그 중 목표 실체를 구분하는 방식이다. 본 논문에서는 이러한 인간의 인지 방식을 효과적으로 모방하기 위해, 크로스모달 점진적 이해(Cross-Modal Progressive Comprehension, CMPC) 기반의 새로운 접근법을 제안한다. 이를 바탕으로 이미지용 CMPC-I(이미지) 모듈과 비디오용 CMPC-V(비디오) 모듈을 구현하여 참조 이미지 및 참조 비디오 세그멘테이션 모델의 성능을 향상시킨다. 이미지 데이터에 대해, CMPC-I 모듈은 먼저 실체어와 속성어를 활용하여 표현이 고려할 수 있는 모든 관련 실체를 인지한다. 이후 관계어를 이용해 공간 그래프 추론을 통해 목표 실체를 강조하고, 기타 무관한 실체는 억제한다. 비디오 데이터에 대해서는, CMPC-I의 기반 위에 동작어를 추가로 활용하여 시간적 그래프 추론을 통해 동작 신호와 일치하는 정확한 실체를 강조한다. 또한 CMPC 외에, 텍스트 정보의 지시에 따라 시각 백본에서 다양한 수준의 특징에 대응하는 다중 모달 특징을 효과적으로 통합하기 위해 간단하면서도 효과적인 텍스트 가이드드 특징 교환(Text-Guided Feature Exchange, TGFE) 모듈을 도입한다. 이를 통해 다수준 특징들이 텍스트적 맥락을 기반으로 서로 소통하고 상호 보완적으로 개선될 수 있다. CMPC-I 또는 CMPC-V와 TGFE를 결합함으로써 이미지 및 비디오용 참조 세그멘테이션 프레임워크를 구성할 수 있으며, 제안된 프레임워크는 네 가지 참조 이미지 세그멘테이션 벤치마크와 세 가지 참조 비디오 세그멘테이션 벤치마크에서 각각 최신의 최고 성능(SOTA)을 달성하였다.

다중 모달 프로그레시브 이해를 통한 언급 세그멘테이션 | 최신 연구 논문 | HyperAI초신경