vor 16 Tagen

Sprachvermittelte räumlich-zeitliche Interaktion für die Bezugsvideoobjektsegmentierung

Zihan Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Jizhong Han, Si Liu

Abstract

Die Referenz-Videoobjektssegmentierung zielt darauf ab, für Objekte, die in Videos durch natürlichsprachliche Ausdrücke referenziert werden, voraussagende Vordergrundlabels zu generieren. Bisherige Methoden stützen sich entweder auf 3D-ConvNets oder integrieren zusätzliche 2D-ConvNets als Encoder zur Extraktion gemischter räumlich-zeitlicher Merkmale. Diese Ansätze leiden jedoch unter räumlicher Unstimmigkeit oder falschen Ablenkungen, die auf verzögerte und implizite räumlich-zeitliche Interaktionen zurückzuführen sind, die sich erst in der Decodierphase ereignen. Um diese Einschränkungen zu überwinden, schlagen wir ein Language-Bridged Duplex Transfer (LBDT)-Modul vor, das Sprache als intermediären Brückenmechanismus nutzt, um explizite und adaptive räumlich-zeitliche Interaktionen bereits in der Encoding-Phase früher zu realisieren. Konkret wird ein Kreuzmodalen-Attention-Mechanismus zwischen dem zeitlichen Encoder, den referenzierenden Wörtern und dem räumlichen Encoder durchgeführt, um sprachrelevante Bewegungs- und Erscheinungsmerkmale zu aggregieren und zu übertragen. Zusätzlich stellen wir ein Bilaterales Kanalaktivierungs-(BCA)-Modul im Decodierungsphase vor, das zur weiteren Rauschunterdrückung und Hervorhebung räumlich-zeitlich konsistenter Merkmale durch kanalweise Aktivierung beiträgt. Umfangreiche Experimente zeigen, dass unsere Methode auf vier etablierten Benchmarks neue SOTA-Ergebnisse erzielt – mit absoluten AP-Gewinnen von 6,8 % und 6,9 % auf A2D Sentences und J-HMDB Sentences jeweils –, während dabei rund 7-fach weniger Rechenleistung verbraucht wird.