2달 전

How2 동영상의 다중 모드 추상적 요약

Shruti Palaskar; Jindrich Libovický; Spandana Gella; Florian Metze

초록

본 논문에서는 개방형 영상에 대한 추출적 요약(abstractive summarization)을 연구합니다. 전통적인 텍스트 뉴스 요약과 달리, 주된 목표는 텍스트 정보를 '압축'하는 것보다 다양한 소스 모달에서 수집 및 융합된 정보의 유창한 텍스트 요약을 제공하는 것입니다. 여기서는 비디오와 오디오 대본(또는 텍스트)을 사용하여, 계층적 주의 메커니즘을 갖춘 다중 소스 시퀀스-투-시퀀스 모델이 어떻게 다른 모달로부터의 정보를 일관성 있는 출력으로 통합할 수 있는지 보여줍니다. 또한, 다양한 모달로 학습된 여러 모델들을 비교하고, 지시 영상 데이터셋인 How2 코퍼스에서 수행한 예비 실험 결과를 제시합니다. 더불어, ROUGE 및 BLEU와 같은 메트릭이 요약의 유창성을 평가하는 반면, 의미적 적절성을 측정하는 새로운 평가 메트릭(Content F1)을 제안합니다.