HyperAIHyperAI
vor 17 Tagen

Video Mask Transfiner für die hochwertige Video-Instanzsegmentierung

Lei Ke, Henghui Ding, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu
Video Mask Transfiner für die hochwertige Video-Instanzsegmentierung
Abstract

Obwohl die Video-Instanzsegmentierung (Video Instance Segmentation, VIS) in den letzten Jahren erhebliche Fortschritte erzielt hat, stoßen derzeitige Ansätze weiterhin auf Schwierigkeiten bei der Vorhersage hochwertiger Masken mit präzisen Randdetails. Zudem weisen die vorhergesagten Segmentierungen häufig starke zeitliche Schwankungen auf, was darauf hindeutet, dass zeitliche Konsistenzinformationen entweder vernachlässigt oder nicht ausreichend genutzt werden. In diesem Artikel greifen wir diese Probleme auf, um detaillierte und zeitlich stabiler Vorhersagen von Masken für VIS zu erreichen. Zunächst stellen wir die Video Mask Transfiner (VMT)-Methode vor, die dank einer hocheffizienten Video-Transformer-Architektur in der Lage ist, feinkörnige, hochauflösende Merkmale zu nutzen. Unser VMT erkennt und gruppiert spärliche, fehleranfällige räumlich-zeitliche Regionen jedes Tracklets innerhalb eines Videosegments und verfeinert diese anschließend mithilfe sowohl lokaler als auch instanzspezifischer Hinweise. Zweitens identifizieren wir, dass die groben Randannotierungen des etablierten YouTube-VIS-Datensatzes ein wesentlicher Beschränkungsfaktor darstellen. Auf Basis unserer VMT-Architektur entwickeln wir daher einen automatisierten Ansatz zur Verbesserung der Annotierungen durch iterative Trainingsprozesse und Selbstkorrektur. Um hochwertige Maskenvorhersagen für VIS zu benchmarken, führen wir den HQ-YTVIS-Datensatz ein, der aus einem manuell überarbeiteten Testset und unseren automatisch verfeinerten Trainingsdaten besteht. Wir vergleichen VMT mit den neuesten state-of-the-art-Methoden auf dem HQ-YTVIS sowie den Benchmarks YouTube-VIS, OVIS und BDD100K MOTS. Die experimentellen Ergebnisse zeigen eindeutig die Wirksamkeit und Effizienz unserer Methode bei der Segmentierung komplexer und dynamischer Objekte, insbesondere durch die präzise Erfassung feinster Details.