HyperAIHyperAI
vor 17 Tagen

MSN: Effiziente Online-Masken-Auswahl-Netzwerk für die Video-Instanzsegmentierung

Vidit Goel, Jiachen Li, Shubhika Garg, Harsh Maheshwari, Humphrey Shi
MSN: Effiziente Online-Masken-Auswahl-Netzwerk für die Video-Instanzsegmentierung
Abstract

In dieser Arbeit präsentieren wir eine neuartige Lösung für die Video-Instance-Segmentation (VIS), die automatisch Instanz-level Segmentation-Masken generiert, Objektklassen zuordnet und diese über einen Video-Clip hinweg verfolgt. Unser Ansatz verbessert die Masken aus der Segmentation- und Propagation-Zweig online mithilfe des Mask Selection Networks (MSN), wodurch die Akkumulation von Rauschen während des Maskenverfolgungsprozesses begrenzt wird. Wir schlagen eine effektive Architektur für das MSN vor, die auf einem patchbasierten Faltungsneuralen Netzwerk (convolutional neural network) basiert. Das Netzwerk ist in der Lage, sehr feine Unterschiede zwischen den Masken zu erkennen und präzise die besseren Masken aus der jeweiligen Menge auszuwählen. Zudem nutzen wir die zeitliche Konsistenz und verarbeiten die Videosequenzen in beiden Richtungen – vorwärts und rückwärts – als Nachbearbeitungsschritt, um verlorene Objekte wiederherzustellen. Die vorgeschlagene Methode kann problemlos auf beliebige Video-Object-Segmentation-Methoden angewendet werden, um diese für die VIS-Aufgabe zu adaptieren. Unser Ansatz erzielt eine mAP von 49,1 beim YouTube-VIS Challenge 2021 und belegt damit den dritten Platz unter mehr als 30 internationalen Teams. Der Quellcode wird unter https://github.com/SHI-Labs/Mask-Selection-Networks veröffentlicht werden.