DVIS: Entkoppeltes Framework für die Video-Instanzsegmentierung

Die Video-Instanz-Segmentierung (VIS) ist eine wichtige Aufgabe mit vielfältigen Anwendungen, darunter autonomes Fahren und Video-Bearbeitung. Bestehende Methoden leisten oft mangelhafte Leistungen bei komplexen und langen Videos in der Realwelt, hauptsächlich aufgrund von zwei Faktoren. Erstens sind Offline-Methoden durch das eng gekoppelte Modellierungsparadigma eingeschränkt, das alle Frames gleich behandelt und die Abhängigkeiten zwischen benachbarten Frames außer Acht lässt. Dies führt im Langzeit-Zeitabgleich zu einer Überfülle an Rauschen. Zweitens leiden Online-Methoden unter einem unzureichenden Nutzen von zeitlichen Informationen. Um diese Herausforderungen zu bewältigen, schlagen wir eine Entkopplungsstrategie für VIS vor, indem wir sie in drei unabhängige Teilprobleme unterteilen: Segmentierung, Verfolgung und Verfeinerung. Die Effektivität der Entkopplungsstrategie basiert auf zwei entscheidenden Elementen: 1) Erreichen präziser Langzeit-Abgleichsergebnisse durch Frame-für-Frame-Assoziation während der Verfolgung, und 2) effektive Nutzung von zeitlichen Informationen auf Basis der oben genannten genauen Abgleichsergebnisse während der Verfeinerung. Wir stellen einen neuen referenzbasierten Tracker und einen zeitlichen Refiner vor, um den \textbf{E}ntkoppelten \textbf{VIS}-Framework (\textbf{DVIS}) zu konstruieren. DVIS erzielt neue Stand-of-the-Art-Leistungen sowohl in VIS als auch in VPS, wobei es die aktuellen Stand-of-the-Art-Methoden um 7,3 AP und 9,6 VPQ auf den OVIS- und VIPSeg-Datensätzen übertrifft, die die anspruchsvollsten und realitätsnahsten Benchmarks sind. Darüber hinaus ermöglicht die Entkopplungsstrategie, dass der referenzbasierte Tracker und der zeitliche Refiner extrem leichtgewichtig sind (nur 1,69\% der FLOPs des Segmentierers), was eine effiziente Trainings- und Inferenzphase auf einer einzelnen GPU mit 11 GB Speicher ermöglicht. Der Code ist unter \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS} verfügbar.Anmerkungen:- "FLOPs" steht für "floating-point operations per second" (Fließkommaoperationen pro Sekunde).- "AP" steht für "average precision" (durchschnittliche Präzision).- "VPQ" steht für "video panoptic quality" (Video-Panoptik-Qualität).