HyperAIHyperAI
vor 15 Tagen

Kooperatives räumlich-zeitliches Modellieren für die Sprachabfrage-basierte Video-Akteurssegmentierung

Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan Wang, Jizhong Han, Fei Wang
Kooperatives räumlich-zeitliches Modellieren für die Sprachabfrage-basierte Video-Akteurssegmentierung
Abstract

Die sprachabgefragte Video-Aktor-Segmentierung zielt darauf ab, die pixelgenaue Maske des Akteurs vorherzusagen, der in den Zielbildern die durch eine natürlichsprachliche Anfrage beschriebenen Aktionen ausführt. Bestehende Methoden verwenden 3D-CNNs über den Video-Clip als allgemeinen Encoder, um eine gemischte räumlich-zeitliche Merkmalrepräsentation für das Zielbild zu extrahieren. Obwohl 3D-Faltungen geeignet sind, den Akteur zu erkennen, der die angefragten Aktionen ausführt, führen sie zwangsläufig auch räumlich ungenaue Informationen aus benachbarten Bildern ein, was die Merkmale des Zielbildes verwirrt und zu ungenauen Segmentierungen führt. Daher schlagen wir einen kooperativen räumlich-zeitlichen Encoder-Decoder-Framework vor, der einen 3D-Zeit-Encoder über den Video-Clip zur Erkennung der angefragten Aktionen und einen 2D-Raum-Encoder über das Zielbild zur präzisen Segmentierung der angefragten Akteure enthält. Im Decoder wird ein Sprachgeleiteter Merkmalsauswahl-Modul (Language-Guided Feature Selection, LGFS) vorgestellt, um flexibel räumliche und zeitliche Merkmale aus beiden Encodern zu integrieren. Zudem schlagen wir einen Kreuzmodalen Adaptiven Modulations-Modul (Cross-Modal Adaptive Modulation, CMAM) vor, der sprachliche Merkmale, die räumlich oder zeitlich relevant sind, dynamisch neu kombiniert, um die multimodale Merkmalsinteraktion in jeder Phase der beiden Encodern zu verbessern. Unsere Methode erreicht neue SOTA-Leistungen auf zwei gängigen Benchmarks mit geringerem Rechenaufwand im Vergleich zu früheren Ansätzen.

Kooperatives räumlich-zeitliches Modellieren für die Sprachabfrage-basierte Video-Akteurssegmentierung | Neueste Forschungsarbeiten | HyperAI