2달 전
Align and Attend: Multimodal Summarization with Dual Contrastive Losses 정렬과 주의: 이중 대조 손실을 사용한 다중 모드 요약
Bo He; Jun Wang; Jielin Qiu; Trung Bui; Abhinav Shrivastava; Zhaowen Wang

초록
다중모달 요약의 목표는 다양한 모달에서 가장 중요한 정보를 추출하여 출력 요약을 구성하는 것입니다. 단일모달 요약과 달리, 다중모달 요약 작업은 교차 모달 정보를 명시적으로 활용하여 더욱 신뢰성 있고 고품질의 요약을 생성하는 데 도움을 줍니다. 그러나 기존 방법들은 다른 모달 간의 시간적 대응성을 활용하지 못하고, 샘플 간의 본질적인 상관관계를 무시합니다. 이 문제를 해결하기 위해, 우리는 통합된 다중모달 트랜스포머 기반 모델인 'Align and Attend Multimodal Summarization (A2Summ)'을 소개합니다. 이 모델은 다중모달 입력을 효과적으로 정렬하고 주목할 수 있습니다. 또한, 샘플 간 및 샘플 내 상관관계를 모델링하기 위해 두 가지 새로운 대조 손실 함수를 제안합니다. TVSum과 SumMe라는 두 개의 표준 비디오 요약 데이터셋과 Daily Mail 및 CNN이라는 두 개의 다중모달 요약 데이터셋에서 수행한 광범위한 실험은 A2Summ의 우수성을 입증하며, 모든 데이터셋에서 최고 성능을 달성하였습니다. 또한, 우리는 라이브 스트림 비디오와 주석이 달린 텍스트 전사본으로 구성된 대규모 다중모달 요약 데이터셋인 BLiSS를 수집하였습니다. 우리의 코드와 데이터셋은 공개적으로 이용 가능하며, 다음 링크에서 확인할 수 있습니다: ~\url{https://boheumd.github.io/A2Summ/}.