HyperAIHyperAI

Command Palette

Search for a command to run...

MAST: Multimodale abstrakte Zusammenfassung mit trimodalem hierarchischem Aufmerksamkeitssystem

Aman Khullar; Udit Arora

Zusammenfassung

Dieses Papier stellt MAST vor, ein neues Modell für multimodale abstraktive Textzusammenfassung, das Informationen aus allen drei Modalitäten – Text, Audio und Video – in einem multimodalen Video nutzt. Frühere Arbeiten im Bereich der multimodal-abstraktiven Textzusammenfassung nutzten nur Informationen aus den Text- und Videomodalitäten. Wir untersuchen die Nützlichkeit und Herausforderungen der Ableitung von Informationen aus der Audiomodalität und präsentieren ein sequenz-basiertes trimodales hierarchisches Aufmerksamkeitsmodell, das diese Herausforderungen überwindet, indem es dem Modell ermöglicht, mehr Aufmerksamkeit auf die Textmodalität zu lenken. MAST übertreffen das aktuelle Stand-of-the-Art-Modell (Video-Text) um 2,51 Punkte in Bezug auf den Content-F1-Score und um 1,00 Punkt in Bezug auf den Rouge-L-Score auf dem How2-Datensatz für multimodales Sprachverstehen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MAST: Multimodale abstrakte Zusammenfassung mit trimodalem hierarchischem Aufmerksamkeitssystem | Paper | HyperAI