HyperAIHyperAI
vor 11 Tagen

Actor- und Action-modulare Netzwerk für textbasierte Videosegmentierung

Jianhua Yang, Yan Huang, Kai Niu, Linjiang Huang, Zhanyu Ma, Liang Wang
Actor- und Action-modulare Netzwerk für textbasierte Videosegmentierung
Abstract

Textbasierte Video-Segmentierung zielt darauf ab, einen Akteur in Videosequenzen zu segmentieren, indem der Akteur und seine durchgeführte Aktion durch eine textuelle Abfrage spezifiziert werden. Bisherige Methoden gelingen es nicht, den Videoinhalt feinabgestuft gemäß dem Akteur und seiner Aktion mit der textuellen Abfrage explizit auszurichten, was auf das Problem der semantischen Asymmetrie zurückzuführen ist. Unter semantischer Asymmetrie versteht man, dass die beiden Modalitäten während des multimodalen Fusionsprozesses unterschiedliche Mengen an semantischer Information enthalten. Um dieses Problem zu mildern, schlagen wir ein neuartiges Akteur- und Aktion-modulares Netzwerk vor, das Akteur und Aktion jeweils in zwei getrennten Modulen separat lokalisiert. Konkret lernen wir zunächst akteur- und aktionsbezogene Inhalte aus dem Video und der textuellen Abfrage, um diese anschließend symmetrisch zu matchen, um den Ziel-Tube zu lokalisieren. Der Ziel-Tube enthält den gewünschten Akteur und die entsprechende Aktion, die anschließend in ein vollständig convolutionales Netzwerk eingespeist werden, um Segmentierungsmasken des Akteurs vorherzusagen. Unser Ansatz etabliert zudem die Zuordnung von Objekten über mehrere Frames mittels des vorgeschlagenen Mechanismus zur zeitlichen Vorschlagsaggregation. Dadurch ermöglicht unsere Methode eine effektive Video-Segmentierung und gewährleistet die zeitliche Konsistenz der Vorhersagen. Das gesamte Modell erlaubt eine gemeinsame Lernung des Akteur-Aktions-Matching und der Segmentierung und erreicht sowohl für die Einzelbild-Segmentierung als auch die vollständige Video-Segmentierung die derzeit beste Leistung auf den Datensätzen A2D Sentences und J-HMDB Sentences.

Actor- und Action-modulare Netzwerk für textbasierte Videosegmentierung | Neueste Forschungsarbeiten | HyperAI