HyperAIHyperAI

Command Palette

Search for a command to run...

Modellierung der Bewegung mit multimodalen Merkmalen für die textbasierte Videosegmentierung

Wangbo Zhao Kai Wang Xiangxiang Chu Fuzhao Xue Xinchao Wang Yang You

Zusammenfassung

Textbasierte Video-Segmentierung zielt darauf ab, das Zielobjekt in einem Video basierend auf einer beschreibenden Satzangabe zu segmentieren. Die Einbeziehung von Bewegungsinformationen aus Optikflusskarten in Kombination mit Erscheinungs- und sprachlichen Modalitäten ist entscheidend, wurde jedoch bisher von vorhergehenden Arbeiten weitgehend vernachlässigt. In diesem Paper entwickeln wir eine Methode zur Fusions- und Ausrichtung von Erscheinungs-, Bewegungs- und sprachlichen Merkmalen, um präzise Segmentierungen zu erreichen. Konkret schlagen wir einen multimodalen Video-Transformer vor, der multimodale und zeitliche Merkmale zwischen Bildern fusionieren und aggregieren kann. Darüber hinaus entwerfen wir ein sprachgesteuertes Merkmalsfusionsmodul, das die Erscheinungs- und Bewegungsmerkmale auf jeder Merkmalsstufe schrittweise mit Hilfe sprachlicher Merkmale fusioniert. Schließlich wird eine multimodale Ausrichtungsverlustfunktion vorgeschlagen, um die semantische Lücke zwischen Merkmalen verschiedener Modalitäten zu verringern. Umfangreiche Experimente auf den Datensätzen A2D Sentences und J-HMDB Sentences bestätigen die Leistungsfähigkeit und Generalisierbarkeit unserer Methode im Vergleich zu aktuellen State-of-the-Art-Verfahren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Modellierung der Bewegung mit multimodalen Merkmalen für die textbasierte Videosegmentierung | Paper | HyperAI