YouTube-VOS: Sequenz-zu-Sequenz-Videosegmentierung von Objekten

Das Lernen langfristiger räumlich-zeitlicher Merkmale ist für viele Videobearbeitungsaufgaben von entscheidender Bedeutung. Bestehende Verfahren zur Videosegmentierung basieren jedoch hauptsächlich auf Techniken der statischen Bildsegmentierung, und Methoden, die zeitliche Abhängigkeiten für die Segmentierung erfassen, müssen auf vortrainierten optischen Flussmodellen (optical flow models) zurückgreifen. Dies führt zu suboptimalen Lösungen des Problems. Das end-to-end sequentielle Lernen zur Erforschung räumlich-zeitlicher Merkmale für die Videosegmentierung wird stark durch den Umfang der verfügbaren Videosegmentierungsdatensätze eingeschränkt, d. h., selbst der größte Videosegmentierungsdatensatz enthält nur 90 kurze Videoclips. Um dieses Problem zu lösen, haben wir einen neuen großen Datensatz zur Videoobjektsegmentierung erstellt, den YouTube Video Object Segmentation Datensatz (YouTube-VOS). Unser Datensatz umfasst 3.252 YouTube-Videoclips und 78 Kategorien, darunter allgemeine Objekte und menschliche Aktivitäten. Dies ist nach unserem Wissen bislang der größte Datensatz zur Videoobjektsegmentierung, und wir haben ihn unter https://youtube-vos.org veröffentlicht. Auf Basis dieses Datensatzes schlagen wir ein neues sequenzbasiertes Netzwerk vor, das langfristige räumlich-zeitliche Informationen in Videos vollständig ausnutzt, um eine Segmentierung durchzuführen. Wir zeigen, dass unsere Methode die besten Ergebnisse auf unserem YouTube-VOS Testset erzielt und vergleichbare Ergebnisse mit den aktuellen Stand der Technik auf dem DAVIS 2016-Datensatz erreicht. Experimente belegen, dass der große Umfang des Datensatzes tatsächlich ein Schlüsselfaktor für den Erfolg unseres Modells ist.