vor 11 Tagen

Multi-Attention-Netzwerk für die komprimierte Video-Bezugsobjektsegmentierung

Weidong Chen, Dexiang Hong, Yuankai Qi, Zhenjun Han, Shuhui Wang, Laiyun Qing, Qingming Huang, Guorong Li

Abstract

Die Referenzvideoobjektssegmentierung zielt darauf ab, das Objekt zu segmentieren, das durch eine gegebene sprachliche Ausdrucksform angesprochen wird. Bisherige Ansätze erfordern typischerweise, dass der komprimierte Videobitstrom vor der Segmentierung in RGB-Bilder decodiert wird, was die Rechen- und Speicheranforderungen erhöht und die Inferenz letztlich verlangsamt. Dies kann die Anwendung in realen Szenarien mit begrenzten Rechenressourcen, wie beispielsweise bei autonomen Fahrzeugen oder Drohnen, erheblich beeinträchtigen. Um dieses Problem zu mildern, untersuchen wir in diesem Artikel die Aufgabe der Referenzobjektssegmentierung direkt auf komprimierten Videos, d. h. auf dem ursprünglichen Videodatenstrom. Neben der inhärenten Schwierigkeit der Video-Referenzobjektssegmentierung selbst stellt die Gewinnung diskriminativer Merkmale aus komprimierten Videos eine besondere Herausforderung dar. Um dieser Herausforderung zu begegnen, schlagen wir ein Multi-Attention-Netzwerk vor, das aus einem Dual-Path-Dual-Attention-Modul und einem abfragenbasierten cross-modalen Transformer-Modul besteht. Speziell ist das Dual-Path-Dual-Attention-Modul darauf ausgelegt, wirksame Merkmale aus komprimierten Daten in drei Modalitäten – I-Frame, Motion Vector und Residual – zu extrahieren. Der abfragenbasierte crossmodale Transformer modelliert zunächst die Korrelation zwischen sprachlicher und visueller Modality und nutzt anschließend die gefassten multimodalen Merkmale, um Objektabfragen zu führen und einen kontextbewussten dynamischen Kernel zu generieren sowie schließlich die Segmentierungsmasken vorherzusagen. Im Gegensatz zu früheren Ansätzen lernen wir lediglich einen einzigen Kernel, wodurch die komplizierte nachträgliche Maskenübereinstimmungsprozedur bestehender Methoden entfällt. Ausführliche, vielversprechende Experimente auf drei anspruchsvollen Datensätzen belegen die Wirksamkeit unseres Ansatzes gegenüber mehreren state-of-the-art-Methoden, die für die Verarbeitung von RGB-Daten entwickelt wurden. Der Quellcode ist unter folgender URL verfügbar: https://github.com/DexiangHong/MANet.