HyperAIHyperAI

Command Palette

Search for a command to run...

MS-TCN: Mehrstufiges temporales Faltungsnetzwerk für Aktionensegmentierung

Yazan Abu Farha; Juergen Gall

Zusammenfassung

Die zeitliche Lokalisierung und Klassifizierung von Aktionssegmenten in langen, ungeschnittenen Videos ist für viele Anwendungen wie Überwachung und Robotik von besonderem Interesse. Während traditionelle Ansätze einem zweistufigen Pipeline folgen, bei dem zuerst rahmengeweise Wahrscheinlichkeiten generiert werden und dann an hochrangige zeitliche Modelle weitergegeben werden, verwenden neuere Ansätze zeitliche Faltungen, um die Videorahmen direkt zu klassifizieren. In dieser Arbeit stellen wir eine mehrstufige Architektur für die Aufgabe der zeitlichen Aktionssegmentierung vor. Jede Stufe verfügt über eine Reihe von dilatierten (gedehnten) zeitlichen Faltungen, um eine anfängliche Vorhersage zu erzeugen, die durch die nächste Stufe verfeinert wird. Diese Architektur wird mit einer Kombination aus einer Klassifikationsverlustfunktion und einem vorgeschlagenen Glättungsverlust trainiert, der Übersegmentierungsfehler bestraft. Eine umfangreiche Evaluierung zeigt die Effektivität des vorgeschlagenen Modells bei der Erfassung langer Abhängigkeiten und der Erkennung von Aktionssegmenten. Unser Modell erzielt standesüberragende Ergebnisse auf drei anspruchsvollen Datensätzen: 50Salads, Georgia Tech Egocentric Activities (GTEA) und dem Frühstückdatensatz (Breakfast dataset).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp