HyperAIHyperAI

Command Palette

Search for a command to run...

Ausrichten und Beachten: Mehrmodale Zusammenfassung mit dualen kontrastiven Verlustfunktionen

Bo He Jun Wang Jielin Qiu Trung Bui Abhinav Shrivastava Zhaowen Wang

Zusammenfassung

Das Ziel der multimodalen Zusammenfassung ist es, die wichtigsten Informationen aus verschiedenen Modalitäten zu extrahieren, um Ausgabezusammenfassungen zu bilden. Im Gegensatz zur unimodalen Zusammenfassung nutzt die multimodale Zusammenfassung explizit kreuzmodale Informationen, um verlässlichere und hochwertigere Zusammenfassungen zu generieren. Bestehende Methoden scheitern jedoch daran, die zeitliche Korrespondenz zwischen verschiedenen Modalitäten zu nutzen und ignorieren die intrinsische Korrelation zwischen verschiedenen Stichproben. Um dieses Problem anzugehen, stellen wir Align and Attend Multimodal Summarization (A2Summ) vor, ein vereintes multimodales Transformer-basiertes Modell, das die multimodale Eingabe effektiv ausrichten und aufnehmen kann. Darüber hinaus schlagen wir zwei neue kontrastive Verlustfunktionen vor, um sowohl inter- als auch intrastichprobliche Korrelationen zu modellieren. Ausführliche Experimente auf zwei Standard-Datensätzen für Videozusammenfassungen (TVSum und SumMe) sowie auf zwei multimodalen Datensätzen für Zusammenfassungen (Daily Mail und CNN) zeigen die Überlegenheit von A2Summ, wobei es den aktuellen Stand der Technik auf allen Datensätzen erreicht. Zudem haben wir einen groß angelegten multimodal zusammengefassten Datensatz BLiSS erstellt, der Livestream-Videos und transkribierte Texte mit annotierten Zusammenfassungen enthält. Unser Code und unser Datensatz sind öffentlich verfügbar unter ~\url{https://boheumd.github.io/A2Summ/}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp