이웃 관계는 영상 장면 탐지에서 중요하다

비디오 장면 탐지(Video scene detection)는 시각적으로 유사한 장면들을 시간적으로 연결하여 의미적으로 밀도 높은 장면을 추출하는 것을 목표로 한다. 이 작업에서 핵심은 샷 간의 의미적 차별성을 반영할 수 있는 유사도 평가를 통해 장면을 구분할 수 있는 유사성 관계를 포착하는 것이다. 그러나 기존 대부분의 방법들은 단순히 샷 간의 일반적인 유사도에 의존하여, 서로 다른 장면에 속한 유사한 샷들이 오류로 연결되는 경우가 발생할 수 있으며, 반대로 동일한 장면에 속한 비유사한 샷들이 완전한 장면으로 통합되는 것을 방해할 수도 있다. 본 논문에서는 국부적인 시간 구간 내에서 샷의 의미적/시간적 이웃 관계를 철저히 탐색함으로써 샷 간 유사도에 샷의 맥락 정보를 주입하는 NeighborNet을 제안한다. 이를 통해 기존의 단순한 샷 간 유사도는 의미적/시간적 이웃을 고려한 유사도로 재정의되며, NeighborNet은 그래프 컨볼루션 네트워크(Graph Convolutional Network)를 활용해 샷 특징에 맥락 정보를 학습할 수 있다. 그 결과, 학습된 샷 특징은 서로 다른 장면에 속한 유사한 샷들 사이의 유사성을 억제하면서도, 동일한 장면 내 비유사한 샷들 간의 유사성을 강화한다. 공개 벤치마크 데이터셋을 대상으로 한 실험 결과, 제안하는 NeighborNet은 비디오 장면 탐지 성능에서 상당한 향상을 보였으며, 평균 정밀도(Average Precision, AP) 기준으로 기존 공개된 최고 성능(SOTA) 방법들보다 최소 6% 이상 우수한 성능을 달성하였다. 코드는 https://github.com/ExMorgan-Alter/NeighborNet 에서 공개되어 있다.