17일 전

VideoXum: 비디오의 다모달 시각적 및 텍스처 요약

Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, Jiebo Luo
VideoXum: 비디오의 다모달 시각적 및 텍스처 요약
초록

비디오 요약은 원본 비디오에서 가장 중요한 정보를 추출하여 단축된 클립 또는 텍스트 서사문을 생성하는 것을 목표로 한다. 기존에는 출력 형식에 따라 비디오 요약과 텍스트 요약을 별도의 방법으로 다뤄왔으며, 이는 시각적 요약과 텍스트적 요약이라는 의미적으로 관련된 두 작업 간의 상관관계를 간과하는 결과를 초래했다. 본 연구에서는 새로운 종합적인 비디오 및 텍스트 요약 작업을 제안한다. 이 작업의 목적은 긴 비디오에서 단축된 비디오 클립과 해당하는 텍스트 요약을 동시에 생성하여, 서로 다른 모달리티를 결합한 ‘다중모달 요약’을 만들어내는 것이다. 생성된 단축 비디오 클립과 텍스트 서사문은 의미적으로 잘 일치해야 한다. 이를 위해 먼저 대규모 인간 주석 데이터셋인 VideoXum(X는 다양한 모달리티를 의미)을 구축하였다. 이 데이터셋은 ActivityNet 기반으로 재주석 처리되었으며, 길이 기준을 충족하지 못하는 비디오를 제거한 결과, 총 14,001개의 긴 비디오가 최종 데이터셋에 포함되었다. 재주석된 각 비디오에는 인간이 생성한 비디오 요약과 해당하는 서사 요약이 함께 제공된다. 이후 본 연구에서는 제안된 작업의 도전 과제를 해결하기 위해 새로운 엔드투엔드 모델인 VTSUM-BILP를 설계하였다. 더불어 다중모달 요약의 의미 일관성을 평가하기 위해 새로운 평가 지표인 VT-CLIPScore를 제안하였다. 제안된 모델은 이 새로운 작업에서 탁월한 성능을 달성하며, 향후 연구를 위한 기준을 마련하였다.