HyperAIHyperAI
vor 16 Tagen

CTRN: Class-Temporal Relational Network für die Aktionsdetektion

Rui Dai, Srijan Das, Francois Bremond
CTRN: Class-Temporal Relational Network für die Aktionsdetektion
Abstract

Die Aktionsdetektion ist eine zentrale und herausfordernde Aufgabe, insbesondere für dicht annotierte Datensätze ungeschnittener Videos. Solche Datensätze beinhalten zahlreiche realweltbezogene Herausforderungen, wie zusammengesetzte Aktionen, gleichzeitige Aktionen sowie eine hohe zeitliche Variabilität der Aktionsdauer. Um diesen Herausforderungen zu begegnen, schlagen wir vor, sowohl die Klassen- als auch die zeitlichen Beziehungen detektierter Aktionen zu erforschen. In dieser Arbeit stellen wir ein end-to-end-Netzwerk vor: das Class-Temporal Relational Network (CTRN). Es besteht aus drei Schlüsselkomponenten: (1) Das Representation Transform Modul filtert klassenspezifische Merkmale aus gemischten Darstellungen, um graphbasierte Daten zu erstellen. (2) Das Class-Temporal Modul modelliert die Klassen- und zeitlichen Beziehungen sequenziell. (3) Der G-Classifier nutzt das privilegierte Wissen über snippetweise auftretende Aktionenpaare, um die Detektion gleichzeitiger Aktionen weiter zu verbessern. Wir evaluieren CTRN auf drei anspruchsvollen, dicht annotierten Datensätzen und erreichen dabei state-of-the-art-Leistungen, was die Wirksamkeit und Robustheit unseres Ansatzes unterstreicht.

CTRN: Class-Temporal Relational Network für die Aktionsdetektion | Neueste Forschungsarbeiten | HyperAI