MS-TCT: Multi-Scale Temporal ConvTransformer für die Aktionsdetektion

Die Aktionsdetektion ist eine zentrale und herausfordernde Aufgabe, insbesondere für dicht beschriftete Datensätze ungeschnittener Videos. In solchen Datensätzen sind die zeitlichen Beziehungen komplex und beinhalten Herausforderungen wie zusammengesetzte Aktionen sowie gleichzeitige Aktionen. Zur Erkennung von Aktionen in diesen komplexen Videos ist die effiziente Erfassung sowohl kurzfristiger als auch langfristiger zeitlicher Informationen entscheidend. Hierfür schlagen wir ein neuartiges ConvTransformer-Netzwerk für die Aktionsdetektion vor. Das Netzwerk besteht aus drei Hauptkomponenten: (1) Der Temporal Encoder-Modul untersucht umfassend globale und lokale zeitliche Beziehungen auf mehreren zeitlichen Auflösungsstufen. (2) Der Temporal Scale Mixer-Modul fusioniert effektiv mehrskalige Merkmale, um eine einheitliche Merkmalsdarstellung zu erzielen. (3) Der Klassifikationsmodul dient dazu, die relative Position bezüglich des Instanzzentrums zu lernen und framebasierte Klassifikationswahrscheinlichkeiten vorherzusagen. Umfangreiche Experimente auf mehreren Datensätzen – darunter Charades, TSU und MultiTHUMOS – bestätigen die Wirksamkeit unseres vorgeschlagenen Ansatzes. Unser Netzwerk erreicht auf allen drei Datensätzen eine bessere Leistung als die derzeit besten Methoden.