HyperAIHyperAI
vor 2 Monaten

MAST: Multimodale abstrakte Zusammenfassung mit trimodalem hierarchischem Aufmerksamkeitssystem

Aman Khullar; Udit Arora
MAST: Multimodale abstrakte Zusammenfassung mit trimodalem hierarchischem Aufmerksamkeitssystem
Abstract

Dieses Papier stellt MAST vor, ein neues Modell für multimodale abstraktive Textzusammenfassung, das Informationen aus allen drei Modalitäten – Text, Audio und Video – in einem multimodalen Video nutzt. Frühere Arbeiten im Bereich der multimodal-abstraktiven Textzusammenfassung nutzten nur Informationen aus den Text- und Videomodalitäten. Wir untersuchen die Nützlichkeit und Herausforderungen der Ableitung von Informationen aus der Audiomodalität und präsentieren ein sequenz-basiertes trimodales hierarchisches Aufmerksamkeitsmodell, das diese Herausforderungen überwindet, indem es dem Modell ermöglicht, mehr Aufmerksamkeit auf die Textmodalität zu lenken. MAST übertreffen das aktuelle Stand-of-the-Art-Modell (Video-Text) um 2,51 Punkte in Bezug auf den Content-F1-Score und um 1,00 Punkt in Bezug auf den Rouge-L-Score auf dem How2-Datensatz für multimodales Sprachverstehen.

MAST: Multimodale abstrakte Zusammenfassung mit trimodalem hierarchischem Aufmerksamkeitssystem | Neueste Forschungsarbeiten | HyperAI