DMM-Net: Differenzierbares Masken-Matching-Netzwerk für die Videoobjektsegmentierung

In dieser Arbeit schlagen wir das differenzierbare Masken-Matching-Netzwerk (DMM-Net) vor, um das Problem der Videoobjektssegmentierung zu lösen, bei dem die anfänglichen Objektmasken bereitgestellt werden. Unter Verwendung des Mask R-CNN-Rückgratnetzes extrahieren wir Maskenvorschläge pro Bild und formulieren das Matching zwischen Objektvorlagen und Vorschlägen zu einem Zeitpunkt als ein lineares Zuordnungsproblem, wobei die Kostenmatrix durch ein CNN vorhergesagt wird. Wir schlagen eine differenzierbare Matching-Schicht vor, indem wir einen projizierten Gradientenabstiegsalgorithmus entrollen, bei dem die Projektion das Algorithmus von Dykstra nutzt. Wir beweisen, dass unter milden Bedingungen das Matching garantiert zum Optimum konvergiert. In der Praxis erzielt es während der Inferenz ähnliche Ergebnisse wie der Ungarische Algorithmus. Gleichzeitig können wir durch es zurückpropagieren, um die Kostenmatrix zu lernen. Nach dem Matching nutzen wir einen Verfeinerungskopf, um die Qualität der übereinstimmenden Maske zu verbessern. Unser DMM-Net erzielt wettbewerbsfähige Ergebnisse auf dem größten Videoobjektssegmentierungsdatensatz YouTube-VOS. Auf DAVIS 2017 erreicht DMM-Net ohne Online-Lernen auf den ersten Bildern die beste Leistung. Ohne jede Feinabstimmung zeigt DMM-Net vergleichbare Ergebnisse mit den besten Methoden auf dem SegTrack v2-Datensatz. Schließlich ist unsere Matching-Schicht sehr einfach zu implementieren; wir fügen den PyTorch-Code (weniger als 50 Zeilen) im Anhang bei. Unser Code ist unter https://github.com/ZENGXH/DMM_Net veröffentlicht.