Ein verallgemeinerter Rahmen für die Video-Instanzsegmentierung

Die Behandlung langer Videos mit komplexen und verdeckten Sequenzen ist in der jüngsten Vergangenheit zu einer neuen Herausforderung im Bereich der Video-Instance-Segmentation (VIS) geworden. Bisherige Ansätze weisen jedoch erhebliche Grenzen bei der Bewältigung dieser Aufgabe auf. Wir argumentieren, dass die größte Herausforderung aktueller Methoden in der Diskrepanz zwischen Training und Inference liegt. Um diese Lücke effektiv zu schließen, stellen wir einen allgemeinen Rahmen für VIS vor, namens GenVIS, der auf anspruchsvollen Benchmarks state-of-the-art Ergebnisse erzielt, ohne komplizierte Architekturen zu erfordern oder zusätzliche Post-Processing-Schritte zu benötigen. Der zentrale Beitrag von GenVIS liegt in der Lernstrategie, die eine abfragesbasierte Trainingspipeline für sequenzielles Lernen mit einer neuartigen Zuordnung von Zielbezeichnungen beinhaltet. Zudem führen wir ein Gedächtnissystem ein, das Informationen aus vorherigen Zuständen effizient erfasst. Dank dieser neuen Perspektive, die die Beziehungen zwischen einzelnen Bildern oder Clips gezielt aufbaut, kann GenVIS flexibel sowohl im Online- als auch im semi-online-Modus eingesetzt werden. Wir evaluieren unseren Ansatz auf etablierten VIS-Benchmarks und erzielen state-of-the-art Ergebnisse auf YouTube-VIS 2019/2021/2022 sowie auf dem occluded VIS (OVIS)-Benchmark. Besonders hervorzuheben ist, dass wir auf dem langen VIS-Benchmark (OVIS) deutlich über den aktuellen Stand der Technik hinausgehen, wobei wir bei Verwendung eines ResNet-50-Backbones eine Verbesserung um 5,6 AP erzielen. Der Quellcode ist unter https://github.com/miranheo/GenVIS verfügbar.