HyperAIHyperAI
vor 2 Monaten

Rekurrente Dynamische Einbettung für die Segmentierung von Videoobjekten

Mingxing Li; Li Hu; Zhiwei Xiong; Bang Zhang; Pan Pan; Dong Liu
Rekurrente Dynamische Einbettung für die Segmentierung von Videoobjekten
Abstract

Raum-zeitliches Gedächtnis (STM) basierte Video-Objekt-Segmentierung (VOS)-Netzwerke erhöhen in der Regel die Größe des Gedächtnisbanks alle paar Frames, was eine ausgezeichnete Leistung zeigt. Allerdings 1) kann die Hardware den ständig wachsenden Speicheranforderungen nicht standhalten, je länger das Video wird. 2) Das Speichern großer Mengen von Informationen führt unvermeidlich zu viel Rauschen, was es erschwert, die wichtigsten Informationen aus dem Gedächtnisbank zu extrahieren. In dieser Arbeit schlagen wir ein rekurrentes dynamisches Einbettungsverfahren (RDE) vor, um einen Gedächtnisbank konstanter Größe aufzubauen. Insbesondere generieren und aktualisieren wir RDE explizit durch das vorgeschlagene räumlich-zeitliche Aggregationsmodul (SAM), das historische Informationen nutzt. Um Fehlerakkumulation aufgrund der rekurrenten Verwendung von SAM zu vermeiden, schlagen wir während der Trainingsphase einen unverzerrten Führungsverlust vor, der SAM in langen Videos robuster macht. Darüber hinaus sind die vorhergesagten Masken im Gedächtnisbank aufgrund ungenauer Netzwerk-Inferenz ungenau, was die Segmentierung des Abfrageframes beeinträchtigt. Um dieses Problem zu lösen, entwickeln wir eine neuartige Selbstkorrekturstrategie, mit der das Netzwerk Einbettungen von Masken unterschiedlicher Qualität im Gedächtnisbank reparieren kann. Ausführliche Experimente zeigen, dass unsere Methode den besten Kompromiss zwischen Leistung und Geschwindigkeit erzielt. Der Quellcode ist unter https://github.com/Limingxing00/RDE-VOS-CVPR2022 verfügbar.

Rekurrente Dynamische Einbettung für die Segmentierung von Videoobjekten | Neueste Forschungsarbeiten | HyperAI