12일 전

비디오 주목할 만한 객체 탐지에 더 많은 주의를 기울이기

{ Jianbing Shen, Ming-Ming Cheng, Wenguan Wang, Deng-Ping Fan}
비디오 주목할 만한 객체 탐지에 더 많은 주의를 기울이기
초록

지난 10년간 영상 주목 객체 탐지(Video Saliency Object Detection, VSOD)에 대한 관심이 급증해왔다. 그러나 연구계는 오랫동안 현실적인 동적 장면을 잘 반영하고 고품질의 레이블을 갖춘 명확한 VSOD 데이터셋이 부족한 상황이었다. 이 문제를 해결하기 위해 우리는 시각적 주의력 일관성을 유지하는 고밀도 레이블을 가진 영상 주목 객체 탐지 데이터셋(Densely Annotated VSOD, DAVSOD)을 철저히 수집하였다. 이 데이터셋은 226개의 영상, 총 23,938개 프레임을 포함하며, 다양한 실제 장면, 객체, 인스턴스 및 운동을 포괄한다. 해당 영상들과 연계된 실제 인간의 시선 고정 데이터(eye-fixation data)를 활용하여 정밀한 진실값(Ground-truth)을 확보하였다. 본 연구는 주목 객체의 동적 변화, 즉 영상 내 주목 객체가 시간에 따라 변화할 수 있다는 도전 과제인 '주목성 전이(Saliency Shift)'에 대해 명시적으로 강조한 최초의 작업이다. 더불어 연구 공동체에 종합적인 벤치마크를 제공하기 위해, 기존 7개의 VSOD 데이터셋과 본 연구에서 제안한 DAVSOD 데이터셋을 포함하여 총 84,000개 프레임으로 구성된 대규모 데이터 기반에서 17개의 대표적인 VSOD 알고리즘을 체계적으로 평가하였다. 세 가지 유명한 평가 지표를 활용해 종합적이고 통찰력 있는 성능 분석을 제시하였다. 또한, 기반 모델(Baseline Model)을 제안하며, 인간의 주의 이동 행동을 학습함으로써 영상 주목성의 동적 특성을 효율적으로 포착할 수 있는 주목성 전이 인식(convLSTM) 기반 아키텍처를 도입하였다. 광범위한 실험을 통해 모델 개발 및 비교에 대한 유망한 미래 방향성을 제시하였다.

비디오 주목할 만한 객체 탐지에 더 많은 주의를 기울이기 | 최신 연구 논문 | HyperAI초신경