Schwach überwachte Video-Emotionsdetektion und -vorhersage mittels eines cross-modalen zeitlichen Löschungsnetzwerks

Die automatische Vorhersage der Emotionen in nutzergenerierten Videos (User-Generated Videos, UGVs) erweckt derzeit zunehmendes Interesse. Allerdings konzentrieren sich bestehende Methoden hauptsächlich auf wenige Schlüsselbilder, was ihre Fähigkeit einschränken kann, den Kontext zu erfassen, der die intendierten Emotionen widerspiegelt. Um dieses Problem anzugehen, schlagen wir in diesem Artikel ein cross-modales zeitliches Ausblenden-Netzwerk vor, das sowohl Schlüsselbilder als auch kontextuelle und audio-basierte Informationen auf schwach überwachter Weise erfasst. Konkret nutzen wir zunächst die intra- und inter-modalen Beziehungen zwischen verschiedenen Videosegmenten, um Schlüsselbilder präzise auszuwählen. Anschließend löschen wir iterativ Schlüsselbilder, um das Modell dazu zu veranlassen, sich stärker auf Kontexte zu konzentrieren, die ergänzende Informationen enthalten. Umfangreiche Experimente auf drei anspruchsvollen Benchmarks für Video-Emotionserkennung zeigen, dass unsere Methode gegenüber aktuellen State-of-the-Art-Ansätzen überzeugt. Der Quellcode ist unter https://github.com/nku-zhichengzhang/WECL verfügbar.