HyperAIHyperAI

Command Palette

Search for a command to run...

Kontextmodulierte dynamische Netzwerke für die Aktions- und Aktor-Segmentierung von Videos mit Sprachanfragen

Yi Yang Fan Ma Cheng Deng Hao Wang

Zusammenfassung

Die Segmentierung von Akteuren und Aktionen in Videos unter Verwendung sprachlicher Abfragen zielt darauf ab, die im Text beschriebenen Objekte innerhalb des Videos zu identifizieren und zu segmentieren. Dieser Prozess erfordert umfassende sprachliche Schlussfolgerung sowie eine fein granulare Verständnis von Videoinhalten. Bisherige Ansätze nutzen hauptsächlich dynamische Faltungsnetzwerke, um visuelle und semantische Darstellungen zu verbinden. Allerdings vernachlässigt die dynamische Faltung bei der Verarbeitung jedes Bereichs innerhalb eines Bildes den räumlichen Kontext, was die Segmentierung ähnlicher Objekte in komplexen Szenarien erschwert. Um diesen Einschränkungen entgegenzuwirken, stellen wir ein kontextmoduliertes dynamisches Faltungsnetzwerk vor. Konkret führen wir in dem vorgeschlagenen Framework eine kontextmodulierte dynamische Faltung ein. Die Faltungskerne für einen bestimmten Bereich werden sowohl aus sprachlichen Sätzen als auch aus den umgebenden Kontextmerkmalen generiert. Zudem entwickeln wir einen zeitlichen Encoder, um Bewegungsinformationen in die visuellen Merkmale einzubinden, um die Übereinstimmung mit den Abfragebeschreibungen weiter zu verbessern. Umfassende Experimente auf zwei etablierten Datensätzen, dem Actor-Action Dataset Sentences (A2D Sentences) und dem J-HMDB Sentences, zeigen, dass unser vorgeschlagener Ansatz die derzeit besten Methoden deutlich übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp