
초록
이 논문에서는 영상-언어 세그멘테이션이라는 도전적인 과제에 도전한다. 주어진 영상과 자연어 문장에 대해, 해당 문장에서 설명하는 객체 또는 주체를 영상 프레임 내에서 세그멘테이션하는 것이 목표이다. 정확한 타깃 객체를 지정하기 위해, 주어진 문장은 일반적으로 공간 관계를 갖는 인접 객체와 같은 여러 속성을 언급한다. 본 논문에서는 공간 관계를 '언어적' 방식, 즉 방향과 거리의 관점에서 표현하는 새로운 폴라 상대 위치 인코딩(Polar Relative Positional Encoding, PRPE) 메커니즘을 제안한다. 이 방법을 통해 문장 특징은 위치 임베딩과 더 직접적으로 상호작용하여 내재된 상대적 위치 관계를 효과적으로 추출할 수 있다. 또한 실수 값의 방향과 거리를 적응할 수 있도록 매개변수화된 함수를 제안하여 위치 임베딩의 유연성을 높였다. PRPE를 기반으로 시각-언어 융합의 기본 모듈로 폴라 어텐션 모듈(Polar Attention Module, PAM)을 설계하였다. 제안한 방법은 도전적인 A2D Sentences 데이터셋에서 기존 최고 성능 방법 대비 mAP 기준으로 11.4%의 절대적 성능 향상을 달성하며, 우수한 성능을 보였다. 또한 J-HMDB Sentences 데이터셋에서도 경쟁력 있는 성능을 기록하였다.