HyperAIHyperAI
vor 17 Tagen

Kontextmodulierte dynamische Netzwerke für die Aktions- und Aktor-Segmentierung von Videos mit Sprachanfragen

{Yi Yang, Fan Ma, Cheng Deng, Hao Wang}
Abstract

Die Segmentierung von Akteuren und Aktionen in Videos unter Verwendung sprachlicher Abfragen zielt darauf ab, die im Text beschriebenen Objekte innerhalb des Videos zu identifizieren und zu segmentieren. Dieser Prozess erfordert umfassende sprachliche Schlussfolgerung sowie eine fein granulare Verständnis von Videoinhalten. Bisherige Ansätze nutzen hauptsächlich dynamische Faltungsnetzwerke, um visuelle und semantische Darstellungen zu verbinden. Allerdings vernachlässigt die dynamische Faltung bei der Verarbeitung jedes Bereichs innerhalb eines Bildes den räumlichen Kontext, was die Segmentierung ähnlicher Objekte in komplexen Szenarien erschwert. Um diesen Einschränkungen entgegenzuwirken, stellen wir ein kontextmoduliertes dynamisches Faltungsnetzwerk vor. Konkret führen wir in dem vorgeschlagenen Framework eine kontextmodulierte dynamische Faltung ein. Die Faltungskerne für einen bestimmten Bereich werden sowohl aus sprachlichen Sätzen als auch aus den umgebenden Kontextmerkmalen generiert. Zudem entwickeln wir einen zeitlichen Encoder, um Bewegungsinformationen in die visuellen Merkmale einzubinden, um die Übereinstimmung mit den Abfragebeschreibungen weiter zu verbessern. Umfassende Experimente auf zwei etablierten Datensätzen, dem Actor-Action Dataset Sentences (A2D Sentences) und dem J-HMDB Sentences, zeigen, dass unser vorgeschlagener Ansatz die derzeit besten Methoden deutlich übertrifft.

Kontextmodulierte dynamische Netzwerke für die Aktions- und Aktor-Segmentierung von Videos mit Sprachanfragen | Neueste Forschungsarbeiten | HyperAI