HyperAIHyperAI
vor 2 Monaten

NOVIS: Ein Fall für die end-to-end nahe-Online-Videosegmentierung von Instanzen

Tim Meinhardt; Matt Feiszli; Yuchen Fan; Laura Leal-Taixe; Rakesh Ranjan
NOVIS: Ein Fall für die end-to-end nahe-Online-Videosegmentierung von Instanzen
Abstract

Bis vor kurzem war es in der Video-Instanz-Segmentierung (VIS)-Gemeinschaft üblich, dass Offline-Methoden im Allgemeinen den Frame-für-Frame Online-Verarbeitungen überlegen sind. Der jüngste Erfolg von Online-Methoden stellt jedoch diese Ansicht in Frage, insbesondere bei anspruchsvollen und langen Videosequenzen. Wir sehen unsere Arbeit als Widerlegung dieser jüngsten Beobachtungen und als Aufruf an die Gemeinschaft, sich auf spezielle nahezu-Online-VIS-Ansätze zu konzentrieren. Um unser Argument zu stützen, präsentieren wir eine detaillierte Analyse verschiedener Verarbeitungsparadigmen sowie die neue end-to-end trainierbare NOVIS (Near-Online Video Instance Segmentation)-Methode. Unser transformerbasiertes Modell prognostiziert direkt räumlich-zeitliche Maskenvolumina für Clips von Frames und führt die Instanztverfolgung zwischen Clips durch Überlappungsembeddings durch. NOVIS ist der erste nahezu-Online-VIS-Ansatz, der jegliche manuell gestaltete Tracking-Heuristiken vermeidet. Wir übertreffen alle existierenden VIS-Methoden um erhebliche Margen und liefern neue Standards in den Benchmarks von YouTube-VIS (2019/2021) sowie OVIS.