13일 전
ClawCraneNet: 텍스트 기반 비디오 세그멘테이션을 위한 객체 수준 관계 활용
Chen Liang, Yu Wu, Yawei Luo, Yi Yang

초록
텍스트 기반 영상 세그멘테이션은 영상 내 자연어로 지칭된 객체를 분할하는 도전적인 과제로, 본질적으로 의미 이해와 미세한 영상 인식 능력을 요구한다. 기존의 방법들은 하위에서 상위로 접근하는 방식으로 언어 표현을 세그멘테이션 모델에 도입하며, 이는 단지 ConvNet의 국소적 수용 필드 내에서 시각-언어 상호작용을 수행하는 데 그친다. 우리는 이러한 상호작용이 충분히 이루어지지 않는다고 주장한다. 왜냐하면 부분적인 관찰만으로는 영역 수준의 관계를 모델이 형성하기 어렵기 때문이다. 이는 자연어나 지칭 표현의 설명 논리와 정반대되는 상황이다. 실제로 사람들은 일반적으로 다른 객체들과의 관계를 통해 목표 객체를 설명하는데, 이는 전체 영상을 보지 않고서는 쉽게 이해되기 어렵다. 이러한 문제를 해결하기 위해, 인간이 언어 안내를 받으며 객체를 세그멘테이션하는 방식을 모방한 새로운 상향식 접근법을 제안한다. 먼저 영상 내 모든 후보 객체를 파악한 후, 고수준 객체들 간의 관계를 해석함으로써 지칭된 객체를 선택한다. 정확한 관계 이해를 위해 세 가지 종류의 객체 수준 관계를 탐구한다. 즉, 위치 관계, 텍스트 유도형 의미 관계, 시간 관계이다. A2D Sentences 및 J-HMDB Sentences 데이터셋에서 실시한 광범위한 실험 결과, 제안하는 방법이 최첨단 기법들을 크게 앞서는 성능을 보였다. 정성적 결과 또한 제안 방법의 결과가 더 설명 가능하다는 점을 보여준다.