
콘텐츠 기반 영상 검색(Content-based Video Retrieval, CBVR)은 영상 공유 플랫폼에서 영상 추천 및 필터링과 같은 응용 분야에 활용된다. 수십억 개의 영상으로 확장되는 데이터베이스를 관리하기 위해, 고정 크기의 임베딩을 사용하는 영상 수준(Video-level) 접근법이 효율성 측면에서 선호된다. 본 논문에서는 영상 수준 방법의 최신 기술 수준을 향상시키는 영상 영역 주의 그래프 네트워크(Video Region Attention Graph Networks, VRAG)를 제안한다. VRAG는 영상의 세부적인 구조를 영역 수준 특징을 통해 표현하고, 영역 간 관계를 통해 영상의 시공간적 동적 특성을 인코딩한다. 본 연구에서는 자기 주의(Self-attention)를 활용하여 영역 간의 의미적 콘텐츠 기반 관계를 모델링하고, 그래프 컨볼루션의 순열 불변 집계(Permutation Invariant Aggregation)를 통해 영상의 복잡한 구조적 정보를 효과적으로 포착한다. 또한, 영상을 촬영 단위(Shot)로 분할하고, 촬영 단위 임베딩을 사용함으로써 영상 수준과 프레임 수준 방법 간의 성능 차이를 줄일 수 있음을 입증한다. 제안한 VRAG는 여러 영상 검색 작업에서 평가되었으며, 영상 수준 검색에서 새로운 최고 성능을 달성하였다. 더불어, 촬영 단위 수준의 VRAG는 기존 영상 수준 방법들보다 더 높은 검색 정밀도를 보였으며, 빠른 평가 속도에서 프레임 수준 방법에 가까운 성능을 달성하였다. 마지막으로, 본 연구의 코드는 공개될 예정이다.