2달 전

동영상 주요성 재검토: 대규모 벤치마크와 새로운 모델

Wenguan Wang; Jianbing Shen; Fang Guo; Ming-Ming Cheng; Ali Borji
동영상 주요성 재검토: 대규모 벤치마크와 새로운 모델
초록

본 연구에서는 비디오 주목도(vidoe saliency) 연구에 두 가지 방식으로 기여하였습니다. 첫째, 동적 장면 자유 시청 중 인간의 눈 움직임을 예측하기 위한 새로운 벤치마크를 제시하였습니다. 이 분야에서 오랫동안 요구되어 왔던 벤치마크입니다. 우리의 데이터셋은 'DHF1K (Dynamic Human Fixation)'라는 이름으로, 다양한 장면, 운동, 물체 유형 및 배경 복잡성에 걸쳐 1,000개의 고품질로 신중하게 선별된 비디오 시퀀스로 구성되어 있습니다. 기존의 비디오 주목도 데이터셋들은 일반적인 동적 장면의 다양성과 일반성을 부족하며, 제약이 없는 환경에서의 어려운 상황들을 충분히 다루지 못하였습니다. 반면에 DHF1K는 확장성, 다양성 및 난이도 측면에서 큰 발전을 이루었으며, 비디오 주목도 모델링을 크게 향상시키기 것으로 기대됩니다.둘째, 우리는 CNN-LSTM 네트워크 아키텍처에 주의 메커니즘(attention mechanism)을 추가하여 빠르고 end-to-end 주목도 학습을 가능하게 하는 새로운 비디오 주목도 모델을 제안하였습니다. 이 주의 메커니즘은 정적 주목도 정보를 명시적으로 인코딩하므로 LSTM이 연속 프레임 간 더 유연한 시간적 주목도 표현을 학습하는 데 집중할 수 있게 합니다. 이러한 설계는 기존 대규모 정적 고정점(fixation) 데이터셋을 충분히 활용하면서 과적합(overfitting)을 피하고, 훈련 효율성과 테스트 성능을 크게 개선합니다.우리는 세 가지 대규모 데이터셋(DHF1K, Hollywood2, UCF 스포츠)에서 최신 주목도 모델들과 비교하여 본 모델의 성능을 철저히 검증하였습니다. 1,200개 이상의 테스트 비디오(총 40만 프레임 포함)에 대한 실험 결과는 본 모델이 다른 경쟁 모델들보다 우수한 성능을 보임을 입증하였습니다.