HyperAIHyperAI
vor 2 Monaten

MS-TCN: Mehrstufiges temporales Faltungsnetzwerk für Aktionensegmentierung

Yazan Abu Farha; Juergen Gall
MS-TCN: Mehrstufiges temporales Faltungsnetzwerk für Aktionensegmentierung
Abstract

Die zeitliche Lokalisierung und Klassifizierung von Aktionssegmenten in langen, ungeschnittenen Videos ist für viele Anwendungen wie Überwachung und Robotik von besonderem Interesse. Während traditionelle Ansätze einem zweistufigen Pipeline folgen, bei dem zuerst rahmengeweise Wahrscheinlichkeiten generiert werden und dann an hochrangige zeitliche Modelle weitergegeben werden, verwenden neuere Ansätze zeitliche Faltungen, um die Videorahmen direkt zu klassifizieren. In dieser Arbeit stellen wir eine mehrstufige Architektur für die Aufgabe der zeitlichen Aktionssegmentierung vor. Jede Stufe verfügt über eine Reihe von dilatierten (gedehnten) zeitlichen Faltungen, um eine anfängliche Vorhersage zu erzeugen, die durch die nächste Stufe verfeinert wird. Diese Architektur wird mit einer Kombination aus einer Klassifikationsverlustfunktion und einem vorgeschlagenen Glättungsverlust trainiert, der Übersegmentierungsfehler bestraft. Eine umfangreiche Evaluierung zeigt die Effektivität des vorgeschlagenen Modells bei der Erfassung langer Abhängigkeiten und der Erkennung von Aktionssegmenten. Unser Modell erzielt standesüberragende Ergebnisse auf drei anspruchsvollen Datensätzen: 50Salads, Georgia Tech Egocentric Activities (GTEA) und dem Frühstückdatensatz (Breakfast dataset).

MS-TCN: Mehrstufiges temporales Faltungsnetzwerk für Aktionensegmentierung | Neueste Forschungsarbeiten | HyperAI