HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachvermittelte räumlich-zeitliche Interaktion für die Bezugsvideoobjektsegmentierung

Zihan Ding Tianrui Hui Junshi Huang Xiaoming Wei Jizhong Han Si Liu

Zusammenfassung

Die Referenz-Videoobjektssegmentierung zielt darauf ab, für Objekte, die in Videos durch natürlichsprachliche Ausdrücke referenziert werden, voraussagende Vordergrundlabels zu generieren. Bisherige Methoden stützen sich entweder auf 3D-ConvNets oder integrieren zusätzliche 2D-ConvNets als Encoder zur Extraktion gemischter räumlich-zeitlicher Merkmale. Diese Ansätze leiden jedoch unter räumlicher Unstimmigkeit oder falschen Ablenkungen, die auf verzögerte und implizite räumlich-zeitliche Interaktionen zurückzuführen sind, die sich erst in der Decodierphase ereignen. Um diese Einschränkungen zu überwinden, schlagen wir ein Language-Bridged Duplex Transfer (LBDT)-Modul vor, das Sprache als intermediären Brückenmechanismus nutzt, um explizite und adaptive räumlich-zeitliche Interaktionen bereits in der Encoding-Phase früher zu realisieren. Konkret wird ein Kreuzmodalen-Attention-Mechanismus zwischen dem zeitlichen Encoder, den referenzierenden Wörtern und dem räumlichen Encoder durchgeführt, um sprachrelevante Bewegungs- und Erscheinungsmerkmale zu aggregieren und zu übertragen. Zusätzlich stellen wir ein Bilaterales Kanalaktivierungs-(BCA)-Modul im Decodierungsphase vor, das zur weiteren Rauschunterdrückung und Hervorhebung räumlich-zeitlich konsistenter Merkmale durch kanalweise Aktivierung beiträgt. Umfangreiche Experimente zeigen, dass unsere Methode auf vier etablierten Benchmarks neue SOTA-Ergebnisse erzielt – mit absoluten AP-Gewinnen von 6,8 % und 6,9 % auf A2D Sentences und J-HMDB Sentences jeweils –, während dabei rund 7-fach weniger Rechenleistung verbraucht wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp