HyperAIHyperAI
vor 11 Tagen

STEm-Seg: Spatio-temporale Embeddings für die Objektsegmentierung in Videos

Ali Athar, Sabarinath Mahadevan, Aljoša Ošep, Laura Leal-Taixé, Bastian Leibe
STEm-Seg: Spatio-temporale Embeddings für die Objektsegmentierung in Videos
Abstract

Bekannte Methoden zur Instanzsegmentierung in Videos basieren typischerweise auf mehrstufigen Pipelines, die dem Tracking-by-Detection-Paradigma folgen und einen Videoclip als Sequenz von Bildern modellieren. Mehrere Netzwerke werden eingesetzt, um Objekte in einzelnen Frames zu detektieren, gefolgt von der Zuordnung dieser Detektionen über die Zeit. Daher sind diese Ansätze oft nicht end-to-end trainierbar und stark an spezifische Aufgaben angepasst. In diesem Paper präsentieren wir einen alternativen Ansatz, der sich für eine Vielzahl von Aufgaben im Bereich der Instanzsegmentierung in Videos eignet. Insbesondere modellieren wir einen Videoclip als ein einzelnes 3D-raumzeitliches Volumen und schlagen eine neuartige Methode vor, die Instanzen räumlich und zeitlich in einem einzigen Schritt segmentiert und verfolgt. Unser Problemansatz basiert auf dem Konzept von raumzeitlichen Embeddings, die trainiert werden, um Pixel, die einer bestimmten Objektinstanz zugehören, über den gesamten Videoclip hinweg zu gruppieren. Dazu führen wir (i) neuartige Mischfunktionen ein, die die Merkmalsrepräsentation raumzeitlicher Embeddings verbessern, sowie (ii) ein einstufiges, proposalsfreies Netzwerk, das zeitlichen Kontext berücksichtigen kann. Unser Netzwerk wird end-to-end trainiert, um sowohl raumzeitliche Embeddings als auch die Parameter zur Gruppierung dieser Embeddings zu lernen, wodurch die Inferenz erheblich vereinfacht wird. Unser Ansatz erreicht state-of-the-art-Ergebnisse auf mehreren Datensätzen und Aufgaben. Der Quellcode und die Modelle sind unter https://github.com/sabarim/STEm-Seg verfügbar.

STEm-Seg: Spatio-temporale Embeddings für die Objektsegmentierung in Videos | Neueste Forschungsarbeiten | HyperAI