HyperAIHyperAI
vor 2 Monaten

Video-Instanzsegmentierung

Linjie Yang; Yuchen Fan; Ning Xu
Video-Instanzsegmentierung
Abstract

In dieser Arbeit stellen wir eine neue Aufgabe im Bereich der Computer Vision vor, die als Video-Instanz-Segmentierung bezeichnet wird. Das Ziel dieser neuen Aufgabe besteht in der gleichzeitigen Detektion, Segmentierung und Verfolgung von Instanzen in Videos. Mit anderen Worten, es handelt sich hierbei um die erste Erweiterung des Problems der Bild-Instanz-Segmentierung auf den Videobereich. Um Forschungen zu dieser neuen Aufgabe zu erleichtern, schlagen wir einen groß angelegten Benchmark vor, den wir YouTube-VIS nennen. Dieser besteht aus 2883 hochaufgelösten YouTube-Videos, einer Labelmenge mit 40 Kategorien und 131.000 hochwertigen Instanzmasken. Des Weiteren schlagen wir einen neuen Algorithmus namens MaskTrack R-CNN für diese Aufgabe vor. Unsere neue Methode führt eine zusätzliche Tracking-Zweigstruktur (tracking branch) in Mask R-CNN ein, um die Detektions-, Segmentierungs- und Tracking-Aufgaben simultan durchzuführen. Schließlich evaluieren wir die vorgeschlagene Methode sowie mehrere starke Baseline-Modelle auf unserem neuen Datensatz. Die experimentellen Ergebnisse verdeutlichen deutlich die Vorteile des vorgeschlagenen Algorithmus und geben Hinweise für zukünftige Verbesserungen. Wir glauben, dass die Aufgabe der Video-Instanz-Segmentierung die Gemeinschaft dazu anregen wird, entlang der Forschungslinie zur Videoverstehung weiterzuarbeiten.