HyperAIHyperAI

Command Palette

Search for a command to run...

MS-TCN++: Multi-Stage Temporal Convolutional Network für die Aktionssegmentierung

Shijie Li Yazan Abu Farha Yun Liu Ming-Ming Cheng Juergen Gall

Zusammenfassung

Mit dem Erfolg von Deep Learning bei der Klassifikation kurzer, trimmierter Videos rückt die zeitliche Segmentierung und Klassifikation von Aktivitäten in langen, untrimmierten Videos stärker in den Fokus. Moderne Ansätze zur Aktivitätssegmentierung nutzen mehrere Schichten zeitlicher Faltungen und zeitlicher Pooling-Operationen. Obwohl diese Methoden gut geeignet sind, zeitliche Abhängigkeiten zu erfassen, leiden ihre Vorhersagen häufig unter Übersegmentierungsfehlern. In diesem Artikel stellen wir eine mehrstufige Architektur für die zeitliche Aktivitätssegmentierung vor, die die Grenzen früherer Ansätze überwindet. Die erste Stufe generiert eine anfängliche Vorhersage, die durch nachfolgende Stufen verfeinert wird. In jeder Stufe stapeln wir mehrere Schichten dilatierter zeitlicher Faltungen, die einen großen Empfindungsfeld (receptive field) mit wenigen Parametern abdecken. Obwohl diese Architektur bereits gut funktioniert, leiden die tieferen Schichten weiterhin unter einem kleinen Empfindungsfeld. Um diesen Nachteil zu beheben, schlagen wir eine doppelte dilatierte Schicht vor, die sowohl große als auch kleine Empfindungsfelder kombiniert. Zudem entkoppeln wir die Gestaltung der ersten Stufe von den nachfolgenden Verfeinerungsstufen, um den unterschiedlichen Anforderungen dieser Stufen gerecht zu werden. Ausführliche Evaluationen belegen die Wirksamkeit des vorgeschlagenen Modells bei der Erfassung langfristiger Abhängigkeiten und der Erkennung von Aktivitätssegmenten. Unsere Modelle erreichen state-of-the-art Ergebnisse auf drei Datensätzen: 50Salads, Georgia Tech Egocentric Activities (GTEA) und dem Breakfast-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp