18일 전

DeepVS: 기계학습 기반의 비디오 시각적 주목도 예측 방법

{Minglang Qiao, Mai Xu, Zulin Wang, Tie Liu, Lai Jiang}
DeepVS: 기계학습 기반의 비디오 시각적 주목도 예측 방법
초록

본 논문에서는 영상 색인성 예측을 위한 새로운 딥러닝 기반 방법 DeepVS를 제안한다. 구체적으로, 538개의 영상에 대해 32명의 피험자의 시선 데이터를 포함하는 대규모 영상 눈동자 추적 데이터베이스(LEDOV)를 구축하였다. LEDOV를 분석한 결과, 인간의 주의는 특히 움직이는 객체나 객체의 움직이는 부분에 더 끌리고 있음을 발견하였다. 이를 바탕으로 DeepVS의 프레임 내 색인성 예측을 위해 객체 중심성과 움직임 특성을 동시에 고려하는 객체-움직임 컨볼루션 신경망(OM-CNN)을 설계하였다. OM-CNN은 객체 중심성 서브넷과 움직임 서브넷으로 구성되며, 두 서브넷의 공간적 특징과 시간적 특징을 효과적으로 통합하기 위해 크로스넷 마스크와 계층적 특징 정규화 기법을 제안하였다. 또한 본 연구에서 확보한 데이터베이스를 통해 인간의 주의가 시간적으로 상관관계를 가지며 영상 프레임 간에 부드러운 색인성 전이가 존재함을 확인하였다. 이를 반영하여 OM-CNN에서 추출한 특징을 입력으로 사용하는 색인성 구조화 컨볼루션 장단기 기억망(SS-ConvLSTM)을 제안하였다. 이를 통해 프레임 간 색인성 맵을 생성할 수 있으며, 이는 중심 편향을 고려한 구조적 출력과 인간의 주의 맵 간의 프레임 간 전이 특성을 동시에 반영한다. 최종적으로, 실험 결과 DeepVS가 영상 색인성 예측 분야에서 기존 최고 성능을 초월함을 입증하였다.