HyperAIHyperAI

Command Palette

Search for a command to run...

Schwach überwachte Video-Emotionsdetektion und -vorhersage mittels eines cross-modalen zeitlichen Löschungsnetzwerks

Jufeng Yang Lijuan Wang Zhicheng Zhang

Zusammenfassung

Die automatische Vorhersage der Emotionen in nutzergenerierten Videos (User-Generated Videos, UGVs) erweckt derzeit zunehmendes Interesse. Allerdings konzentrieren sich bestehende Methoden hauptsächlich auf wenige Schlüsselbilder, was ihre Fähigkeit einschränken kann, den Kontext zu erfassen, der die intendierten Emotionen widerspiegelt. Um dieses Problem anzugehen, schlagen wir in diesem Artikel ein cross-modales zeitliches Ausblenden-Netzwerk vor, das sowohl Schlüsselbilder als auch kontextuelle und audio-basierte Informationen auf schwach überwachter Weise erfasst. Konkret nutzen wir zunächst die intra- und inter-modalen Beziehungen zwischen verschiedenen Videosegmenten, um Schlüsselbilder präzise auszuwählen. Anschließend löschen wir iterativ Schlüsselbilder, um das Modell dazu zu veranlassen, sich stärker auf Kontexte zu konzentrieren, die ergänzende Informationen enthalten. Umfangreiche Experimente auf drei anspruchsvollen Benchmarks für Video-Emotionserkennung zeigen, dass unsere Methode gegenüber aktuellen State-of-the-Art-Ansätzen überzeugt. Der Quellcode ist unter https://github.com/nku-zhichengzhang/WECL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Schwach überwachte Video-Emotionsdetektion und -vorhersage mittels eines cross-modalen zeitlichen Löschungsnetzwerks | Paper | HyperAI