Lösung des 1. Platzierungs für den YouTubeVOS-Wettbewerb 2021: Video-Instanzsegmentierung

Video-Instanzsegmentierung (VIS) ist ein mehrfach gestelltes Problem, das gleichzeitig Objektdetektion, Segmentierung und Verfolgung durchführt. Im Gegensatz zu Bildsatz-Anwendungen bringt Videodaten zusätzliche zeitliche Information mit sich, die, falls angemessen verarbeitet, äußerst nützlich ist, um Objektbewegungen zu identifizieren und vorherzusagen. In dieser Arbeit entwerfen wir ein einheitliches Modell, das diese Aufgaben wechselseitig erlernt. Konkret schlagen wir zwei Module vor, die Temporally Correlated Instance Segmentation (TCIS) und Bidirectional Tracking (BiTrack) genannt werden, um die zeitliche Korrelation zwischen den Instanzmasken eines Objekts über benachbarte Frames auszunutzen. Andererseits ist Videodaten oft aufgrund der Überlappung zwischen aufeinanderfolgenden Bildern redundant. Unsere Analyse zeigt, dass dieses Problem insbesondere bei den YoutubeVOS-VIS2021-Daten besonders gravierend ist. Daher schlagen wir einen Multi-Source Data (MSD)-Trainingsmechanismus vor, um die Datenknappheit zu kompensieren. Durch die Kombination dieser Techniken mit einer Reihe bewährter Methoden wird die Netzwerkleistung gegenüber der Basislinie erheblich gesteigert und erreicht auf den YoutubeVOS-VIS-2019- und 2021-Datensätzen eine deutlich überlegene Leistung im Vergleich zu anderen Ansätzen.