Kernelized Memory Network für die Video-Objektsegmentierung

Semi-supervised Video Object Segmentation (VOS) ist eine Aufgabe, bei der die Segmentierung einer Zieltarget-Objekts in einem Video vorhergesagt wird, wobei die Ground-Truth-Segmentierungsmaske des Zieltarget-Objekts im ersten Frame gegeben ist. In letzter Zeit haben Space-Time-Memory-Netzwerke (STM) erhebliche Aufmerksamkeit als vielversprechende Lösung für semi-supervised VOS erhalten. Dabei wird jedoch ein entscheidender Aspekt bei der Anwendung von STM auf VOS übersehen: Während die Lösung (STM) nicht-lokal ist, ist das Problem (VOS) überwiegend lokal. Um diese Diskrepanz zwischen STM und VOS zu überwinden, schlagen wir ein kernelisiertes Memory-Netzwerk (KMN) vor. Bevor KMN auf echten Videos trainiert wird, wird es zunächst auf statischen Bildern vortrainiert, wie in früheren Arbeiten üblich. Im Gegensatz zu früheren Ansätzen nutzen wir im Vortrainierungsprozess die Hide-and-Seek-Strategie, um die bestmöglichen Ergebnisse bei der Behandlung von Verdeckungen und der Extraktion von Segmentgrenzen zu erzielen. Das vorgeschlagene KMN übertrifft die Stand der Technik auf Standardbenchmarks deutlich (+5 % auf dem DAVIS 2017 Test-Dev-Set). Zudem beträgt die Laufzeit von KMN 0,12 Sekunden pro Frame auf dem DAVIS 2016 Validierungsset, und KMN erfordert im Vergleich zu STM nur selten zusätzlichen Rechenaufwand.