SWEM: Richtung Echtzeit-Videosegmentierung mit sequentieller gewichteter Erwartung-Maximierung

Methode basierend auf der Zuordnung, insbesondere solche, die auf räumlich-zeitlichem Gedächtnis fußen, sind bei der semi-überwachten Videoobjektsegmentierung (VOS) erheblich vorteilhafter als andere Lösungen. Allerdings führen kontinuierlich wachsende und redundante Vorlagenmerkmale zu einer ineffizienten Inferenz. Um dies zu verbessern, schlagen wir ein neues sequentielles gewichtetes Erwartung-Maximierung-Netzwerk (Sequential Weighted Expectation-Maximization, SWEM) vor, das die Redundanz von Gedächtnismerkmalen erheblich reduziert. Im Gegensatz zu früheren Methoden, die nur die Redundanz von Merkmalen zwischen Frames erkennen, kombiniert SWEM sowohl innerhalb von Frames als auch zwischen Frames ähnliche Merkmale durch den Einsatz eines sequentiellen gewichteten EM-Algorithmus. Darüber hinaus verleihen adaptive Gewichte für Frame-Merkmale dem SWEM die Flexibilität, schwierige Beispiele darzustellen und die Unterscheidbarkeit der Vorlagen zu verbessern. Des Weiteren behält die vorgeschlagene Methode eine feste Anzahl von Vorlagenmerkmalen im Gedächtnis, was die stabile Inferenzkomplexität des VOS-Systems gewährleistet. Ausführliche Experimente mit den gängigen DAVIS und YouTube-VOS-Datensätzen bestätigen die hohe Effizienz (36 FPS) und Leistung (84,3\% $\mathcal{J}\&\mathcal{F}$ auf dem Validierungsdatensatz DAVIS 2017) des SWEM. Der Quellcode ist unter folgendem Link verfügbar: https://github.com/lmm077/SWEM.