AutoShot: 짧은 영상 데이터셋 및 최신 기술 기반의 샷 경계 탐지

단편 영상은 폭발적인 인기를 끌며 새로운 소셜 미디어 트렌드를 주도하고 있다. 퀘이쇼우(Kuaishou, Kwai), 틱톡(TikTok), 인스타그램 리얼스(Instagram Reels), 유튜브 샷츠(YouTube Shorts) 등 주요 단편 영상 플랫폼들은 콘텐츠 소비 및 제작 방식을 근본적으로 변화시켰다. 영상 콘텐츠 제작과 이해를 위한 다양한 시나리오에서 샷 경계 탐지(Shot Boundary Detection, SBD)는 핵심적인 구성 요소 중 하나이다. 본 연구에서는 853개의 완전한 단편 영상과 11,606개의 샷 레이블을 포함하며, 테스트용 200개 영상에 대해 총 2,716개의 고품질 샷 경계 레이블을 보유한 새로운 공개 단편 영상 샷 경계 탐지 데이터셋, SHOT을 발표한다. 이 새로운 데이터 자산을 기반으로, 다양한 고급 3D 컨볼루션 신경망(ConvNets)과 트랜스포머(Transformer)를 포함하는 검색 공간 내에서 신경망 아키텍처 탐색(Neural Architecture Search)을 수행함으로써 영상 SBD를 위한 모델 설계를 최적화하는 방안을 제안한다. 제안하는 방법론인 AutoShot은 새로 구축한 SHOT 데이터셋에서 직접 구현 및 평가되었을 때, 기존 최고 성능 기법들보다 높은 F1 스코어를 달성하며, 특히 TransNetV2를 4.2% 초과하는 성능을 보였다. 또한 AutoShot 아키텍처의 일반화 능력을 검증하기 위해 ClipShots, BBC, RAI 세 개의 다른 공개 데이터셋에 대해 직접 평가한 결과, 각각 기존 최고 성능 기법보다 F1 스코어에서 1.1%, 0.9%, 1.2% 우수한 성능을 기록하였다. SHOT 데이터셋과 코드는 https://github.com/wentaozhu/AutoShot.git 에서 확인할 수 있다.