HyperAIHyperAI
vor 3 Monaten

Modellierung der Bewegung mit multimodalen Merkmalen für die textbasierte Videosegmentierung

Wangbo Zhao, Kai Wang, Xiangxiang Chu, Fuzhao Xue, Xinchao Wang, Yang You
Modellierung der Bewegung mit multimodalen Merkmalen für die textbasierte Videosegmentierung
Abstract

Textbasierte Video-Segmentierung zielt darauf ab, das Zielobjekt in einem Video basierend auf einer beschreibenden Satzangabe zu segmentieren. Die Einbeziehung von Bewegungsinformationen aus Optikflusskarten in Kombination mit Erscheinungs- und sprachlichen Modalitäten ist entscheidend, wurde jedoch bisher von vorhergehenden Arbeiten weitgehend vernachlässigt. In diesem Paper entwickeln wir eine Methode zur Fusions- und Ausrichtung von Erscheinungs-, Bewegungs- und sprachlichen Merkmalen, um präzise Segmentierungen zu erreichen. Konkret schlagen wir einen multimodalen Video-Transformer vor, der multimodale und zeitliche Merkmale zwischen Bildern fusionieren und aggregieren kann. Darüber hinaus entwerfen wir ein sprachgesteuertes Merkmalsfusionsmodul, das die Erscheinungs- und Bewegungsmerkmale auf jeder Merkmalsstufe schrittweise mit Hilfe sprachlicher Merkmale fusioniert. Schließlich wird eine multimodale Ausrichtungsverlustfunktion vorgeschlagen, um die semantische Lücke zwischen Merkmalen verschiedener Modalitäten zu verringern. Umfangreiche Experimente auf den Datensätzen A2D Sentences und J-HMDB Sentences bestätigen die Leistungsfähigkeit und Generalisierbarkeit unserer Methode im Vergleich zu aktuellen State-of-the-Art-Verfahren.

Modellierung der Bewegung mit multimodalen Merkmalen für die textbasierte Videosegmentierung | Forschungsarbeiten | HyperAI