HyperAIHyperAI
vor 9 Tagen

Repräsentationslernung durch multimodale Aufmerksamkeit und zeitlich synchronisierte Kommentare für die emotionale Analyse von Videoinhalten

{Lin Fang, Shangfei Wang, Jicai Pan}
Abstract

Obwohl zeitliche Muster, die in visuellen und audiovisuellen Signalen inhärent sind, für die emotionale Analyse von Videoinhalten entscheidend sind, wurden sie bisher noch nicht ausreichend erforscht. In diesem Artikel stellen wir eine neuartige temporal-aware multimodale (TAM) Methode vor, die darauf abzielt, die zeitlichen Informationen vollständig zu erfassen. Insbesondere entwerfen wir ein cross-temporales multimodales Fusionsmodul, das auf Aufmerksamkeitsbasierte Fusionsstrategien innerhalb und zwischen Videosegmenten angewendet wird. Dadurch wird die zeitliche Beziehung zwischen verschiedenen Modalitäten vollständig erfasst. Zudem fehlt bei der Verwendung eines einzelnen Emotionslabels eine ausreichende Supervision für die Lernung der Repräsentation jedes Segments, was die Erforschung zeitlicher Muster erschwert. Um dies zu überwinden, nutzen wir zeitlich synchronisierte Kommentare (TSCs) als zusätzliche, selbstüberwachte Supervision, da diese leicht zugänglich sind und reichhaltige emotionale Hinweise enthalten. Wir stellen zwei TSC-basierte selbstüberwachte Aufgaben vor: Die erste zielt darauf ab, die emotionalen Wörter in einem TSC aus der Video-Repräsentation und dem kontextuellen Semantikinhalt des Kommentars vorherzusagen, während die zweite Aufgabe das Segment vorhersagt, in dem der TSC erscheint, indem die Korrelation zwischen der Video-Repräsentation und der TSC-Embedding berechnet wird. Diese selbstüberwachten Aufgaben werden genutzt, um das cross-temporale multimodale Fusionsmodul auf einem großskaligen Video-TSC-Datensatz vorzu trainieren, der ohne Etikettierungskosten aus dem Web gecrawlt wurde. Durch diese selbstüberwachte Vortrainierung wird das Fusionsmodul angeregt, Repräsentationslernen für Segmente, die TSCs enthalten, durchzuführen, wodurch weitere zeitliche emotionale Muster erfasst werden können. Experimentelle Ergebnisse auf drei Benchmark-Datensätzen zeigen, dass das vorgeschlagene Fusionsmodul state-of-the-art Ergebnisse bei der emotionalen Videoinhaltsanalyse erzielt. Ablationsstudien bestätigen, dass nach dem TSC-basierten Vortraining das Fusionsmodul eine verbesserte Erfassung emotionaler Muster in mehreren Segmenten erlernt und somit eine bessere Gesamtleistung erzielt.

Repräsentationslernung durch multimodale Aufmerksamkeit und zeitlich synchronisierte Kommentare für die emotionale Analyse von Videoinhalten | Neueste Forschungsarbeiten | HyperAI