2달 전

Shot2Story: 다중 샷 비디오의 종합적 이해를 위한 새로운 벤치마크

Mingfei Han; Linjie Yang; Xiaojun Chang; Lina Yao; Heng Wang
Shot2Story: 다중 샷 비디오의 종합적 이해를 위한 새로운 벤치마크
초록

비디오의 짧은 클립에도 여러 사건의 진행과 흥미로운 스토리라인이 포함될 수 있습니다. 인간은 각 샷에서 발생하는 사건을 포착하고 이를 연관시켜 비디오 뒤에 숨은 이야기를 이해해야 합니다. 본 연구에서는 각 샷 단위의 자세한 캡션, 포괄적인 비디오 요약, 그리고 질문-답변 쌍을 제공하는 새로운 다중샷 비디오 이해 벤치마크인 Shot2Story를 제시합니다. 비디오의 더 나은 의미론적 이해를 위해 시각적 신호와 인간의 서술 모두에 대한 캡션을 제공합니다. 우리는 단일샷 비디오 캡셔닝, 다중샷 비디오 요약, 다중샷 비디오 질문-답변 등 몇 가지 다른 과제를 설계하였습니다. 초기 실험 결과는 다중샷 비디오에 대해 길고 포괄적인 요약을 생성하는 데 일부 어려움이 있음을 보여주지만, 생성된 불완전한 요약들도 이미 기존의 비디오 이해 과제(예: 비디오 질문-답변)에서 경쟁력 있는 성능을 달성하고 있으며, 상세한 요약을 활용한 아직 충분히 탐구되지 않은 비디오 이해 환경을 촉진하고 있습니다.

Shot2Story: 다중 샷 비디오의 종합적 이해를 위한 새로운 벤치마크 | 최신 연구 논문 | HyperAI초신경