Heterogener Wissenstransfer in der Video-Emotionserkennung, -Attribuierung und -Zusammenfassung

Emotion ist ein wesentlicher Bestandteil von Nutzer-generierten Videos. Allerdings ist es schwierig, die darin vermittelten Emotionen zu verstehen, aufgrund der komplexen und unstrukturierten Natur des Nutzer-generierten Inhalts sowie der geringen Anzahl von Video-frames, die Emotionen ausdrücken. In dieser Arbeit untersuchen wir erstmals das Problem der Wissensübertragung von heterogenen externen Quellen, einschließlich Bild- und Textdaten, um drei verwandte Aufgaben bei der Verständnis von Videoemotionen zu unterstützen: Emotionserkennung, Emotionszuordnung und emotionsorientierte Zusammenfassung. Insbesondere (1) lernt unser Framework eine Video-Kodierung aus einem unterstützenden emotionalen Bild-Datensatz, um die überwachte Erkennung von Videoemotionen zu verbessern, und (2) überträgt Wissen aus einem unterstützenden textuellen Korpus für die Zero-Shot-Erkennung von Emotionsklassen, die während des Trainings nicht gesehen wurden. Die vorgeschlagene Technik zur Wissensübertragung ermöglicht innovative Anwendungen der Emotionszuordnung und emotionsorientierten Zusammenfassung. Eine umfangreiche Reihe von Experimenten mit mehreren Datensätzen zeigt die Effektivität unseres Frameworks.