Effizientes regionales Gedächtnisnetzwerk für die Segmentierung von Videoobjekten

Kürzlich haben mehrere space-time memory-basierte Netzwerke gezeigt, dass Objekt-Hinweise (wie z.B. Videobilder und segmentierte Objektmasken) aus vergangenen Bildern nützlich sind, um Objekte im aktuellen Bild zu segmentieren. Allerdings nutzen diese Methoden die Informationen aus dem Gedächtnis durch eine globale-zu-globale Übereinstimmung zwischen den aktuellen und vergangenen Bildern, was zu Fehlzuordnungen ähnlicher Objekte und hoher rechnerischer Komplexität führt. Um diese Probleme zu lösen, schlagen wir eine neuartige lokale-zu-lokale Übereinstimmungslösung für semi-überwachtes VOS vor, nämlich das Regionales Gedächtnisnetzwerk (RMNet). In RMNet wird das präzise regionale Gedächtnis durch das Speichern lokaler Bereiche konstruiert, in denen die Zielobjekte in den vergangenen Bildern auftreten. Für das aktuelle Abfragebild werden die Abfragebereiche auf der Grundlage des optischen Flusses, der aus dem vorherigen Bild geschätzt wird, verfolgt und vorhergesagt. Die vorgeschlagene lokale-zu-lokale Übereinstimmung reduziert die Unsicherheit ähnlicher Objekte sowohl in den Gedächtnis- als auch in den Abfragebildern effektiv, was es ermöglicht, dass die Informationen effizient und wirksam vom regionalen Gedächtnis zum Abfragebereich übertragen werden. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene RMNet sich günstig mit den besten bisher bekannten Methoden auf den DAVIS- und YouTube-VOS-Datensätzen vergleicht.