8일 전
효율적인 키프레임 선택 기반 프레임워크를 통한 비디오 캡셔닝
{Sivaji Bandyopadhyay, Thoudam Doren Singh, Salam Michael Singh, Loitongbam Sanayai Meetei, Alok Singh}

초록
비디오를 설명하는 작업은 컴퓨터 비전과 자연어 생성의 교차 영역에 속하기 때문에 도전적이면서도 매력적인 과제이다. 주목(type) 기반 모델이 가장 우수한 성능을 보고하고 있으나, 이러한 모든 모델들은 유사한 절차를 따르며, 비디오를 프레임의 조각으로 나누거나, 시각적 인코딩을 위해 일정 간격으로 프레임을 샘플링하는 방식을 사용한다. 그러나 비디오를 조각으로 나누거나 일정 간격으로 프레임을 샘플링하는 과정은 유사한 프레임이 연속적으로 나타나는 비디오의 특성상 중복된 시각 정보를 인코딩하게 되고, 불균일한 조명, 가림, 운동 왜곡 등의 피할 수 없는 노이즈 문제로 인해 추가적인 계산 비용을 수반한다. 본 논문에서는 비디오 설명을 위한 경계 기반 키프레임 선택 방식을 제안한다. 이 방식은 시각 정보를 효율적으로 인코딩하고, 비디오에 대한 설명을 생성하면서 성능 저하를 최소화할 수 있도록, 키프레임의 견고한 하위 집합을 선택할 수 있도록 한다. 제안된 방법은 평균적으로 비디오당 3~4개의 프레임만을 사용하며, MSVD 및 MSR-VTT 두 가지 벤치마크 데이터셋에서 영어와 힌디어 모두에서 경쟁력 있는 성능을 달성한다.