Ausrichten und Beachten: Mehrmodale Zusammenfassung mit dualen kontrastiven Verlustfunktionen

Das Ziel der multimodalen Zusammenfassung ist es, die wichtigsten Informationen aus verschiedenen Modalitäten zu extrahieren, um Ausgabezusammenfassungen zu bilden. Im Gegensatz zur unimodalen Zusammenfassung nutzt die multimodale Zusammenfassung explizit kreuzmodale Informationen, um verlässlichere und hochwertigere Zusammenfassungen zu generieren. Bestehende Methoden scheitern jedoch daran, die zeitliche Korrespondenz zwischen verschiedenen Modalitäten zu nutzen und ignorieren die intrinsische Korrelation zwischen verschiedenen Stichproben. Um dieses Problem anzugehen, stellen wir Align and Attend Multimodal Summarization (A2Summ) vor, ein vereintes multimodales Transformer-basiertes Modell, das die multimodale Eingabe effektiv ausrichten und aufnehmen kann. Darüber hinaus schlagen wir zwei neue kontrastive Verlustfunktionen vor, um sowohl inter- als auch intrastichprobliche Korrelationen zu modellieren. Ausführliche Experimente auf zwei Standard-Datensätzen für Videozusammenfassungen (TVSum und SumMe) sowie auf zwei multimodalen Datensätzen für Zusammenfassungen (Daily Mail und CNN) zeigen die Überlegenheit von A2Summ, wobei es den aktuellen Stand der Technik auf allen Datensätzen erreicht. Zudem haben wir einen groß angelegten multimodal zusammengefassten Datensatz BLiSS erstellt, der Livestream-Videos und transkribierte Texte mit annotierten Zusammenfassungen enthält. Unser Code und unser Datensatz sind öffentlich verfügbar unter ~\url{https://boheumd.github.io/A2Summ/}.