
초록
TASED-Net은 비디오 주요성 검출을 위한 3차원 완전 합성곱 네트워크 구조입니다. 이 모델은 두 가지 구성 요소로 이루어져 있습니다. 첫째, 인코더 네트워크는 여러 연속 프레임으로 구성된 입력 클립에서 저해상도 시공간 특성을 추출합니다. 둘째, 후속 예측 네트워크는 인코딩된 특성을 공간적으로 디코딩하면서 모든 시간 정보를 집계합니다. 그 결과, 여러 프레임으로 구성된 입력 클립에서 단일 예측 맵이 생성됩니다. 비디오에 슬라이딩 윈도우 방식으로 TASED-Net을 적용하면 프레임별 주요성 맵을 예측할 수 있습니다. 제안된 접근 방식은 어떤 프레임의 주요성 맵도 제한된 과거 프레임들을 고려하여 예측할 수 있다는 가정을 기반으로 합니다. 우리 팀이 수행한 광범위한 비디오 주요성 검출 실험 결과는 이 가정을 입증하고, 시간 집계 방법을 사용한 완전 합성곱 모델의 효과성을 보여줍니다. TASED-Net은 비디오 주요성 검출의 세 가지 주요 대규모 데이터셋인 DHF1K, Hollywood2, 그리고 UCFSports에서 이전 최신 접근 방식들보다 크게 우수한 성능을 보였습니다. 결과를 정량적으로 분석한 후, 우리의 모델이 특히 움직이는 주요 객체에 더 잘 집중한다는 것을 확인할 수 있었습니다.