12일 전
자연어 쿼리로부터 액터 및 액션 영상 세그멘테이션을 위한 비대칭 크로스 가이드드 어텐션 네트워크
{ Dacheng Tao, Junchi Yan, Cheng Deng, Hao Wang}

초록
자연어 쿼리로부터 액터 및 액션 영상 세그멘테이션은 입력된 텍스트 설명에 기반하여 영상 내 특정 액터와 그 액션을 선택적으로 세그멘테이션하는 것을 목표로 한다. 기존의 연구들은 주로 시각과 언어의 이질적 특성 간의 단순한 상관관계를 동적 컨볼루션 또는 완전 컨볼루션 분류를 통해 학습하는 데 집중해왔다. 그러나 이러한 방법들은 자연어 쿼리의 언어적 다양성을 간과하고, 전반적인 시각적 맥락을 효과적으로 모델링하기 어려워 성능이 만족스럽지 못한 문제가 있었다. 이러한 문제를 해결하기 위해, 본 연구에서는 자연어 쿼리로부터 액터 및 액션 영상 세그멘테이션을 위한 비대칭 교차가이드 주의망(Asymmetric Cross-Guided Attention Network)을 제안한다. 구체적으로, 입력 쿼리의 언어적 다양성을 줄이기 위한 시각 기반 언어 주의망(Vision-Guided Language Attention)과, 쿼리에 집중된 전반적인 시각적 맥락을 통합하기 위한 언어 기반 시각 주의망(Language-Guided Vision Attention)을 동시에 갖춘 비대칭 구조의 주의망을 설계하였다. 또한, 다중 해상도 융합 방식과 전경 및 배경 픽셀에 대한 가중치를 적용한 손실 함수를 도입하여 성능을 추가로 향상시켰다. Actor-Action Dataset Sentences 및 J-HMDB Sentences 데이터셋에서 실시한 광범위한 실험 결과, 제안하는 방법이 최신 기술 대비 유의미하게 뛰어난 성능을 보였다.