Video Instance Segmentation mit einem Propose-Reduce-Paradigma

Video-Instanzsegmentierung (VIS) zielt darauf ab, für jedes Frame in Videos alle Instanzen vordefinierter Klassen zu segmentieren und zuzuordnen. Herkömmliche Methoden erzeugen typischerweise zunächst die Segmentierung für einen Frame oder einen Clip und verknüpfen anschließend die unvollständigen Ergebnisse mittels Verfolgung oder Matching. Diese Vorgehensweise kann zu Fehlerakkumulation im Verknüpfungsschritt führen. Im Gegensatz dazu schlagen wir ein neues Paradigma – Propose-Reduce – vor, um durch einen einzigen Schritt vollständige Sequenzen für Eingabevideos zu generieren. Darüber hinaus integrieren wir eine Sequenz-Propagierungshead in eine bestehende Bildlevel-Instanzsegmentierungssystem, um eine langfristige Propagierung zu ermöglichen. Um Robustheit und hohe Erinnerungsrate (recall) unseres vorgeschlagenen Frameworks sicherzustellen, werden mehrere Sequenzen vorgeschlagen, wobei überflüssige Sequenzen derselben Instanz reduziert werden. Wir erreichen Stand der Technik-Leistungen auf zwei repräsentativen Benchmark-Datensätzen: 47,6 % AP auf dem YouTube-VIS-Validierungssatz und 70,4 % J&F auf dem DAVIS-UVOS-Validierungssatz. Der Quellcode ist unter https://github.com/dvlab-research/ProposeReduce verfügbar.