11일 전

크로스모달 프로그레시브 이해를 통한 참조 이미지 세그멘테이션

Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei, Jizhong Han, Luoqi Liu, Bo Li
크로스모달 프로그레시브 이해를 통한 참조 이미지 세그멘테이션
초록

참조 이미지 세그멘테이션은 자연어 표현에 제시된 설명과 잘 부합하는 개체의 전경 마스크를 분할하는 것을 목표로 한다. 기존의 접근 방식은 시각적 및 언어적 모달 간의 암묵적인 특징 상호작용과 융합을 사용하여 이 문제를 다루었지만, 보통 표현 내에서 정보가 풍부한 단어를 탐색하지 못해 두 모달 간의 특징을 정확히 정렬하여 참조된 개체를 식별하는 데 어려움을 겪는다. 본 논문에서는 이 도전적인 과제를 효과적으로 해결하기 위해 교모달 프로그레시브 이해(Cross-Modal Progressive Comprehension, CMPC) 모듈과 텍스트 유도 특징 교환(Text-Guided Feature Exchange, TGFE) 모듈을 제안한다. 구체적으로, CMPC 모듈은 먼저 개체와 속성에 해당하는 단어를 활용하여 표현이 고려할 수 있는 모든 관련 개체를 인지한다. 그 후, 관계를 나타내는 단어를 이용해 다모달 그래프 추론을 통해 정확한 개체를 강조하고 다른 관련 없는 개체를 억제한다. CMPC 모듈 외에도, 텍스트 정보의 지도 하에 다양한 수준에서 추론된 다모달 특징을 통합하기 위해 간단하면서도 효과적인 TGFE 모듈을 도입한다. 이를 통해 다수준 특징들이 서로 소통하고 텍스트적 맥락에 기반하여 보다 정교하게 개선될 수 있다. 우리는 네 가지 인기 있는 참조 세그멘테이션 벤치마크에서 광범위한 실험을 수행하여 최신 기준 성능을 달성하였다.

크로스모달 프로그레시브 이해를 통한 참조 이미지 세그멘테이션 | 최신 연구 논문 | HyperAI초신경