초록
본 논문에서는 영상 요약을 위한 공간-시간 표현을 학습하기 위해 동적 그래프 모델링 접근법을 제안한다. 기존의 대부분의 영상 요약 방법은 ImageNet으로 사전 훈련된 심층 모델을 활용하여 이미지 수준의 특징을 추출한다. 반면 본 연구는 객체 수준 및 관계 수준의 정보를 활용하여 공간-시간적 종속성을 포착한다. 구체적으로, 본 방법은 탐지된 객체 후보들 위에 공간 그래프를 구축한다. 이후, 공간 그래프의 집계된 표현을 이용하여 시간 그래프를 구성한다. 이후 그래프 컨볼루션 네트워크를 사용하여 공간 및 시간 그래프 위에서 관계 추론을 수행하고, 중요도 점수 예측 및 핵심 샷 선택을 위한 공간-시간 표현을 추출한다. 밀집 연결된 노드로 인해 발생하는 관계 혼잡 문제를 해결하기 위해, 본 연구는 의미 없는 관계를 무시하는 자기 주도적 주의(edge pooling) 모듈을 추가로 설계하였다. 제안된 방법은 SumMe 및 TVSum과 같은 두 가지 대표적인 벤치마크에서 광범위한 실험을 수행하였다. 실험 결과, 기존 최첨단 영상 요약 방법들과 비교하여 제안된 방법이 우수한 성능을 달성함을 입증하였다.