Voll-Duplex-Strategie für die Video-Objekt-Segmentierung

Frühere Ansätze zur Videoobjektsegmentierung konzentrierten sich hauptsächlich auf einfache Lösungen zwischen Erscheinungsbild und Bewegung, was die Effizienz der Merkmalskooperation innerhalb und zwischen diesen beiden Hinweisen einschränkte. In dieser Arbeit untersuchen wir ein neuartiges und effizientes Netzwerk mit vollständigem Duplexstrategie (FSNet), um dieses Problem zu lösen. Dabei wird ein verbessertes gegenseitiges Restriktionsverfahren zwischen Bewegung und Erscheinungsbild angestrebt, um die multimodalen Merkmale aus den Fusionierungs- und Decodierstufen besser auszuwerten. Insbesondere führen wir das relationale Cross-Attention-Modul (RCAM) ein, um eine bidirektionale Nachrichtenverbreitung über die Einbettungsunterräume zu ermöglichen. Um die Robustheit des Modells zu erhöhen und inkonsistente Merkmale aus den räumlich-zeitlichen Einbettungen zu aktualisieren, verwenden wir nach dem RCAM das bidirektionale Reinigungsmodul (BPM). Ausführliche Experimente an fünf gängigen Benchmarks zeigen, dass unser FSNet sowohl bei verschiedenen herausfordernden Szenarien (z.B. Bewegungsunschärfe, Verdeckung) als auch in den Aufgaben der Videoobjektsegmentierung und der Detektion von video-salienten Objekten eine gute Leistung gegenüber bestehenden Spitzenlösungen erzielt. Das Projekt ist öffentlich unter folgender URL verfügbar: https://dpfan.net/FSNet.