11일 전
언어 브리지 공간-시간 상호작용을 통한 언어 기반 영상 객체 세그멘테이션
Zihan Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Jizhong Han, Si Liu

초록
참조 영상 객체 세그멘테이션은 영상 내 자연어 표현으로 지칭된 객체에 대해 전경 레이블을 예측하는 작업이다. 기존의 방법들은 3D ConvNet에 의존하거나 추가적인 2D ConvNet을 인코더로 활용하여 공간-시간 특징을 혼합적으로 추출하는 방식을 사용해 왔다. 그러나 이러한 방법들은 복잡한 디코딩 단계에서 지연되고 암묵적인 공간-시간 상호작용이 발생함에 따라 공간적 부정확성 또는 오류적인 배경 유도 요소(distractor) 문제를 겪는다. 이러한 한계를 극복하기 위해, 우리는 인코딩 단계에서 조기적으로 명시적이고 적응형의 공간-시간 상호작용을 달성하기 위해 언어를 중개 다리로 활용하는 언어 브리지 듀플렉스 전이(Language-Bridged Duplex Transfer, LBDT) 모듈을 제안한다. 구체적으로, 시간 인코더, 참조 단어, 공간 인코더 간의 크로스모달 어텐션을 수행하여 언어와 관련된 운동 및 시각적 정보를 효과적으로 집계하고 전달한다. 또한, 디코딩 단계에서 채널별 활성화를 통해 공간-시간 일관성 있는 특징을 더욱 명확히 하고 노이즈를 제거하기 위해 이중 채널 활성화(Bilateral Channel Activation, BCA) 모듈도 제안한다. 광범위한 실험 결과, 본 방법은 네 가지 주요 벤치마크에서 새로운 최고 성능을 달성하였으며, A2D Sentences와 J-HMDB Sentences에서 각각 6.8%, 6.9%의 절대 AP 향상률을 기록하였고, 계산량은 약 7배 적은 비용으로 수행된다.