HyperAIHyperAI
vor 2 Monaten

Spatio-temporales CNN für die Segmentierung von Videoobjekten

Kai Xu; Longyin Wen; Guorong Li; Liefeng Bo; Qingming Huang
Spatio-temporales CNN für die Segmentierung von Videoobjekten
Abstract

In dieser Arbeit stellen wir ein vereintes, von Anfang bis Ende trainierbares räumlich-zeitliches CNN-Modell für VOS vor, das aus zwei Zweigen besteht, nämlich dem zeitlichen Kohärenz-Zweig und dem räumlichen Segmentierungs-Zweig. Insbesondere ist der zeitliche Kohärenz-Zweig, der auf unmarkierten Videodaten in einem adversären Verfahren vortrainiert wurde, darauf ausgelegt, die dynamischen Erscheinungsformen und Bewegungshinweise von Videosequenzen zu erfassen, um die Objektsegmentierung zu leiten. Der räumliche Segmentierungs-Zweig konzentriert sich darauf, Objekte basierend auf den gelernten Erscheinungsformen und Bewegungshinweisen präzise zu segmentieren. Um genaue Segmentierungsergebnisse zu erzielen, haben wir einen grob-zu-feinen Prozess entwickelt, bei dem ein speziell entworfenes Aufmerksamkeitsmodul sequentiell auf mehrskalige Merkmalskarten angewendet wird und diese anschließend verkettet werden, um die endgültige Vorhersage zu erzeugen. Auf diese Weise wird der räumliche Segmentierungs-Zweig dazu angehalten, sich allmählich auf Objektbereiche zu fokussieren. Diese beiden Zweige werden gemeinsam an Video-Segmentierungssequenzen in einem end-to-end Verfahren feinjustiert. Mehrere Experimente wurden an drei anspruchsvollen Datensätzen (nämlich DAVIS-2016, DAVIS-2017 und YouTube-Object) durchgeführt, um zu zeigen, dass unsere Methode eine günstige Leistung im Vergleich zur Stand der Technik erzielt. Der Quellcode ist unter https://github.com/longyin880815/STCNN verfügbar.

Spatio-temporales CNN für die Segmentierung von Videoobjekten | Neueste Forschungsarbeiten | HyperAI