HyperAIHyperAI
vor 18 Tagen

Objektweiterleitung über Zwischenrahmen-Attention für zeitlich stabile Video-Instanzsegmentierung

Anirudh S Chakravarthy, Won-Dong Jang, Zudi Lin, Donglai Wei, Song Bai, Hanspeter Pfister
Objektweiterleitung über Zwischenrahmen-Attention für zeitlich stabile Video-Instanzsegmentierung
Abstract

Video-Instanzsegmentierung zielt darauf ab, Objekte in Videos zu detektieren, zu segmentieren und zu verfolgen. Aktuelle Ansätze erweitern bildbasierte Segmentieralgorithmen auf den zeitlichen Bereich. Dies führt jedoch zu zeitlich inkonsistenten Masken. In dieser Arbeit identifizieren wir die Maskenqualität aufgrund von zeitlicher Stabilität als Leistungsengpass. Darauf aufbauend schlagen wir eine Methode für die Video-Instanzsegmentierung vor, die das Problem fehlender Detektionen verringert. Da dieses Problem nicht allein durch räumliche Informationen gelöst werden kann, nutzen wir zeitliche Kontextinformationen mittels Inter-Frame-Attention. Dadurch kann unser Netzwerk fehlende Objekte mithilfe von Box-Vorhersagen aus benachbarten Frames neu fokussieren und somit fehlende Detektionen überwinden. Unsere Methode übertrifft die vorherigen State-of-the-Art-Algorithmen mit dem Mask R-CNN-Backbone erheblich und erreicht eine mAP von 36,0 % auf dem YouTube-VIS-Benchmark. Zudem ist unsere Methode vollständig online und benötigt keine zukünftigen Frames. Der Quellcode ist öffentlich unter https://github.com/anirudh-chakravarthy/ObjProp verfügbar.