HyperAIHyperAI
vor 13 Tagen

MS-TCN++: Multi-Stage Temporal Convolutional Network für die Aktionssegmentierung

Shijie Li, Yazan Abu Farha, Yun Liu, Ming-Ming Cheng, Juergen Gall
MS-TCN++: Multi-Stage Temporal Convolutional Network für die Aktionssegmentierung
Abstract

Mit dem Erfolg von Deep Learning bei der Klassifikation kurzer, trimmierter Videos rückt die zeitliche Segmentierung und Klassifikation von Aktivitäten in langen, untrimmierten Videos stärker in den Fokus. Moderne Ansätze zur Aktivitätssegmentierung nutzen mehrere Schichten zeitlicher Faltungen und zeitlicher Pooling-Operationen. Obwohl diese Methoden gut geeignet sind, zeitliche Abhängigkeiten zu erfassen, leiden ihre Vorhersagen häufig unter Übersegmentierungsfehlern. In diesem Artikel stellen wir eine mehrstufige Architektur für die zeitliche Aktivitätssegmentierung vor, die die Grenzen früherer Ansätze überwindet. Die erste Stufe generiert eine anfängliche Vorhersage, die durch nachfolgende Stufen verfeinert wird. In jeder Stufe stapeln wir mehrere Schichten dilatierter zeitlicher Faltungen, die einen großen Empfindungsfeld (receptive field) mit wenigen Parametern abdecken. Obwohl diese Architektur bereits gut funktioniert, leiden die tieferen Schichten weiterhin unter einem kleinen Empfindungsfeld. Um diesen Nachteil zu beheben, schlagen wir eine doppelte dilatierte Schicht vor, die sowohl große als auch kleine Empfindungsfelder kombiniert. Zudem entkoppeln wir die Gestaltung der ersten Stufe von den nachfolgenden Verfeinerungsstufen, um den unterschiedlichen Anforderungen dieser Stufen gerecht zu werden. Ausführliche Evaluationen belegen die Wirksamkeit des vorgeschlagenen Modells bei der Erfassung langfristiger Abhängigkeiten und der Erkennung von Aktivitätssegmenten. Unsere Modelle erreichen state-of-the-art Ergebnisse auf drei Datensätzen: 50Salads, Georgia Tech Egocentric Activities (GTEA) und dem Breakfast-Datensatz.

MS-TCN++: Multi-Stage Temporal Convolutional Network für die Aktionssegmentierung | Neueste Forschungsarbeiten | HyperAI