11일 전
시각-문자 캡슐 라우팅을 통한 텍스트 기반 비디오 세그멘테이션
{ Mubarak Shah, Yogesh S Rawat, Kevin Duarte, Bruce McIntosh}

초록
시각과 자연어 간의 공동 이해는 인공지능 분야에서 광범위한 응용이 가능한 도전적인 문제이다. 본 연구에서는 문장에 기반하여 배우와 동작을 포함한 영상 분할(Actor and Action Video Segmentation)이라는 과제에 대해 영상과 텍스트의 통합을 탐구한다. 우리는 관심 있는 배우를 자연어 질의를 통해 픽셀 수준에서 정확히 위치화할 수 있는 캡슐 기반 접근법을 제안한다. 제안하는 방법은 영상과 텍스트 입력을 모두 캡슐 형태로 인코딩하여, 기존의 표준 컨볼루션 기반 특징보다 더 효과적인 표현을 가능하게 한다. 또한, 새로운 시각-텍스트 라우팅 메커니즘을 도입하여 영상 캡슐과 텍스트 캡슐을 효율적으로 융합함으로써 배우와 동작의 정확한 위치를 추출한다. 기존의 배우-동작 위치 추정 연구들은 주로 단일 프레임 내에서의 위치 추정에 집중되어 있으나, 본 연구는 전체 영상의 모든 프레임에 걸쳐 위치 추정을 수행하는 새로운 접근을 제안한다. 제안된 네트워크의 잠재력을 검증하기 위해, 기존의 배우-동작 데이터셋(A2D)을 확장하여 모든 프레임에 대한 레이블을 추가하였다. 실험 결과는 제안된 캡슐 네트워크가 영상 내에서 텍스트 기반의 배우 및 동작 선택적 위치 추정에 효과적임을 입증하였다. 또한, 기존의 단일 프레임 기반 위치 추정 최첨단 기법들에 비해 성능을 더욱 향상시켰다.