HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrkontext-basiertes zeitkonsistentes Modellierung für die Segmentierung referenzierter Videoobjekte

Choi

Zusammenfassung

Die referenzbasierte VideoobjektsSegmentierung (Referring Video Object Segmentation) zielt darauf ab, Objekte innerhalb eines Videos gemäß einer gegebenen Textbeschreibung zu segmentieren. Bestehende transformerbasierte Ansätze zur zeitlichen Modellierung stoßen auf Herausforderungen im Zusammenhang mit Abfrageinkonsistenzen und der begrenzten Berücksichtigung des Kontextes. Abfrageinkonsistenzen führen zu instabilen Masken verschiedener Objekte in der Mitte des Videos. Die begrenzte Berücksichtigung des Kontextes resultiert in der Segmentierung falscher Objekte, da die Beziehung zwischen dem gegebenen Text und den Instanzen nicht ausreichend berücksichtigt wird. Um diese Probleme zu lösen, schlagen wir das Modul für mehrfachkontextuelle zeitliche Konsistenz (Multi-Context Temporal Consistency Module, MTCM) vor, das aus einem Ausrichter (Aligner) und einem Mehrfachkontextverstärker (Multi-Context Enhancer, MCE) besteht. Der Ausrichter entfernt Rauschen von Abfragen und ordnet sie an, um Abfragekonsistenz zu erreichen. Der MCE prognostiziert textrelevante Abfragen durch die Berücksichtigung von mehrfachem Kontext. Wir haben MTCM auf vier verschiedene Modelle angewendet und konnten die Leistung bei allen verbessern, insbesondere erreichten wir einen J&F-Wert von 47,6 auf dem MeViS-Datensatz. Der Quellcode ist unter https://github.com/Choi58/MTCM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mehrkontext-basiertes zeitkonsistentes Modellierung für die Segmentierung referenzierter Videoobjekte | Paper | HyperAI