HyperAIHyperAI
vor 13 Tagen

Temporale relationale Modellierung mit Selbstüberwachung für die Aktionssegmentierung

Dong Wang, Di Hu, Xingjian Li, Dejing Dou
Temporale relationale Modellierung mit Selbstüberwachung für die Aktionssegmentierung
Abstract

Die zeitliche relationale Modellierung in Videos ist entscheidend für das Verständnis menschlicher Aktionen, beispielsweise bei der Aktionserkennung und der Aktionssegmentierung. Obwohl Graph-Convolution-Netze (GCNs) auf vielen Aufgaben hinsichtlich der Relationen-Reasoning vielversprechende Vorteile gezeigt haben, bleibt die effektive Anwendung von GCNs auf lange Video-Sequenzen weiterhin eine Herausforderung. Der Hauptgrund hierfür ist die große Anzahl an Knoten (d. h. Videoframes), die es GCNs erschwert, zeitliche Relationen in Videos zu erfassen und zu modellieren. Um dieses Problem anzugehen, stellen wir in diesem Artikel ein effektives GCN-Modul vor, den Dilated Temporal Graph Reasoning Module (DTGRM), das entwickelt wurde, um zeitliche Beziehungen und Abhängigkeiten zwischen Videoframes über verschiedene Zeitspannen hinweg zu modellieren. Insbesondere erfassen und modellieren wir zeitliche Relationen durch den Aufbau mehrstufiger, dilatierter zeitlicher Graphen, wobei die Knoten Frames aus unterschiedlichen Zeitpunkten im Video darstellen. Darüber hinaus wird eine ergänzende selbstüberwachte Aufgabe vorgeschlagen, um die zeitliche Reasoning-Fähigkeit des vorgeschlagenen Modells zu verbessern und den DTGRM-Modul dazu zu bringen, falsche zeitliche Beziehungen in Videos zu erkennen und zu korrigieren. Unser DTGRM-Modell erreicht eine bessere Leistung als aktuell beste Aktionssegmentierungsmodelle auf drei anspruchsvollen Datensätzen: 50Salads, Georgia Tech Egocentric Activities (GTEA) und dem Breakfast-Datensatz. Der Quellcode ist unter https://github.com/redwang/DTGRM verfügbar.

Temporale relationale Modellierung mit Selbstüberwachung für die Aktionssegmentierung | Neueste Forschungsarbeiten | HyperAI