
초록
본 논문에서는 MAST(Multimodal Abstractive Text Summarization)라는 새로운 모델을 소개합니다. 이 모델은 다중모달 비디오에서 텍스트, 오디오, 비디오 세 가지 모달의 정보를 모두 활용합니다. 기존의 다중모달 추상적 텍스트 요약 연구는 텍스트와 비디오 모달의 정보만을 활용하였습니다. 우리는 오디오 모달에서 정보를 도출하는 데 대한 유용성과 과제를 검토하고, 이러한 과제를 극복하기 위해 모델이 텍스트 모달에 더 많은 주의를 기울일 수 있도록 설계된 시퀀스-투-시퀀스 트리모달 계층적 주의기반 모델을 제시합니다. MAST는 How2 데이터셋에서 다중모달 언어 이해에 대한 콘텐츠 F1 점수에서 2.51점, Rouge-L 점수에서 1.00점 높은 성능을 보여주며, 현재 최고 수준의 모델(비디오-텍스트)을 능가합니다.