11일 전

이미지 및 동영상에서 크로스모달 자체주의 네트워크를 활용한 참조 세그멘테이션

Linwei Ye, Mrigank Rochan, Zhi Liu, Xiaoqin Zhang, Yang Wang
이미지 및 동영상에서 크로스모달 자체주의 네트워크를 활용한 참조 세그멘테이션
초록

이 연구에서는 자연어를 이용한 이미지 및 영상 내 참조 세그멘테이션 문제를 다룬다. 입력 이미지(또는 영상)와 참조 표현(referring expression)이 주어졌을 때, 해당 표현이 지칭하는 개체를 이미지 또는 영상 내에서 세그멘테이션하는 것이 목표이다. 본 논문에서는 언어적 특징과 시각적 특징 간의 장거리 종속성을 효과적으로 포착하기 위해, 개별 단어와 입력 이미지 또는 영상의 세부 정보를 활용하는 크로스모달 자기주의(Cross-Modal Self-Attention, CMSA) 모듈을 제안한다. 제안된 모델은 참조 표현 내 정보가 풍부한 단어들과 시각 입력 내 중요한 영역에 자동으로 집중할 수 있도록 한다. 또한, 다양한 수준의 시각적 특징에 대응하는 자기주의적 크로스모달 특징을 선택적으로 통합하기 위해 게이트형 다수준 융합(Gated Multi-Level Fusion, GMLF) 모듈을 제안한다. 이 모듈은 고수준 및 저수준의 의미 정보를 기반으로, 서로 다른 주의(word-level) 특징에 해당하는 특징의 정보 흐름을 제어하며 특징 융합을 조절한다. 더불어, 연속 프레임 간의 시계열 정보를 효과적으로 통합하기 위해 크로스프레임 자기주의(Cross-Frame Self-Attention, CFSA) 모듈을 도입하여 영상 기반 참조 세그멘테이션에 대한 제안 방법의 적용 범위를 확장하였다. 네 개의 대표적 참조 이미지 세그멘테이션 데이터셋과 두 개의 액터 및 행동 영상 세그멘테이션 데이터셋에서 수행한 실험 결과는, 제안된 방법이 기존 최고 성능 기법들을 일관되게 초월함을 보여준다.

이미지 및 동영상에서 크로스모달 자체주의 네트워크를 활용한 참조 세그멘테이션 | 최신 연구 논문 | HyperAI초신경