HyperAIHyperAI

Command Palette

Search for a command to run...

LoSh: Long-Short Text Joint Prediction Network für die Referierende Videoobjektsegmentierung

Linfeng Yuan Miaojing Shi Zijie Yue Qijun Chen

Zusammenfassung

Referenzbasierte Video-Objektsegmentierung (Referring Video Object Segmentation, RVOS) zielt darauf ab, das im Video durch eine gegebene Textexpression referierte Objektinstanz zu segmentieren. Die Textexpression enthält normalerweise eine komplexe Beschreibung der Erscheinung, der Handlung sowie der Beziehung des Objekts zu anderen Objekten. Es ist daher äußerst schwierig für ein RVOS-Modell, alle diese Attribute im Video korrekt zu erfassen; tatsächlich neigt das Modell oft stärker zu visuellen Merkmalen, die mit Aktionen und Beziehungen zusammenhängen. Dies kann zu unvollständigen oder sogar falschen Maskenvorhersagen der Zielinstanz führen. Um dieses Problem anzugehen, extrahieren wir aus der ursprünglichen langen Textexpression eine themenorientierte, kurze Textexpression. Diese kurze Form behält ausschließlich die auf Erscheinung bezogenen Informationen der Zielinstanz bei, sodass wir sie nutzen können, um die Aufmerksamkeit des Modells gezielt auf die visuelle Erscheinung der Instanz zu lenken. Wir lassen das Modell gemeinsame Vorhersagen basierend auf sowohl der langen als auch der kurzen Textexpression treffen und integrieren ein Long-Short-Cross-Attention-Modul zur Interaktion der gemeinsamen Merkmale sowie eine Long-Short-Prediction-Schnittmenge-Verlustfunktion zur Regulierung der gemeinsamen Vorhersagen. Neben der Verbesserung der sprachlichen Komponente führen wir außerdem eine Vorwärts-Rückwärts-Visuelle-Konsistenzverlustfunktion ein, die optische Flüsse nutzt, um visuelle Merkmale zwischen annotierten Bildern und ihren zeitlichen Nachbarn zu transformieren, um Konsistenz zu gewährleisten. Unsere Methode baut auf zwei state-of-the-art-Pipelines auf. Umfassende Experimente an den Datensätzen A2D-Sentences, Refer-YouTube-VOS, JHMDB-Sentences und Refer-DAVIS17 zeigen beeindruckende Verbesserungen durch unsere Methode. Der Quellcode ist unter https://github.com/LinfengYuan1997/Losh verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp