17일 전
언어 쿼리에 의한 액터 및 액션 비디오 세그멘테이션을 위한 컨텍스트 조절 동적 네트워크
{Yi Yang, Fan Ma, Cheng Deng, Hao Wang}
초록
언어 쿼리를 활용한 액터 및 액션 영상 세그멘테이션은 영상 내에서 언급된 객체를 정확히 분할하는 것을 목표로 한다. 이 과정은 종합적인 언어 추론과 세밀한 영상 이해 능력을 요구한다. 기존의 방법들은 주로 시각적 표현과 의미적 표현을 매칭하기 위해 동적 합성곱 네트워크를 활용해 왔다. 그러나 동적 합성곱은 프레임 내 각 영역을 처리할 때 공간적 맥락을 간과하기 때문에, 복잡한 시나리오에서 유사한 객체를 정확히 세그멘트하는 데 한계가 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 맥락 조절형 동적 합성곱 네트워크를 제안한다. 구체적으로, 제안된 프레임워크 내에서 맥락 조절형 동적 합성곱 연산을 도입한다. 이 연산은 특정 영역에 대한 커널을 언어 문장과 주변 맥락 특징 정보로부터 함께 생성한다. 또한, 시각적 특징에 운동 정보를 통합하여 쿼리 설명과의 매칭을 더욱 정교하게 하기 위해 시간적 인코더를 설계하였다. A2D Sentences 및 J-HMDB Sentences 두 가지 기준 데이터셋에서 실시한 광범위한 실험을 통해, 제안하는 방법이 최신 기술보다 뚜렷한 성능 우위를 보임을 입증하였다.