LoCATe-GAT: Modellierung von Multi-Skalen-Lokalen Kontexten und Aktionsbeziehungen für Zero-Shot-Aktionserkennung
{Arijit Sur Divyam Singal Sandipan Sarma}
Abstract
Die zunehmende Anzahl von Aktionen in der realen Welt macht es traditionellen Deep-Learning-Modellen schwer, unbekannte Aktionen zu erkennen. In jüngster Zeit wurden vortrainierte, kontrastive bildbasierte visuell-sprachliche (I-VL) Modelle angepasst, um eine effiziente „Zero-Shot“-Szenenverstehens zu ermöglichen. Die Kombination solcher Modelle mit Transformers zur Implementierung einer zeitlichen Modellierung hat sich für die Zero-Shot-Aktionserkennung (ZSAR) als lohnend erwiesen. Die Bedeutung der Modellierung des lokalen räumlichen Kontexts von Objekten und Aktionsumgebungen bleibt jedoch bisher unerforscht. In dieser Arbeit stellen wir einen ZSAR-Framework namens LoCATe-GAT vor, der aus einem neuartigen Local Context-Aggregating Temporal Transformer (LoCATe) und einem Graph Attention Network (GAT) besteht. Konkret werden Bild- und Textcodierungen, die aus einem vortrainierten I-VL-Modell extrahiert wurden, als Eingaben für LoCATe-GAT verwendet. Ausgehend von der Beobachtung, dass objektzentrierte und umgebungsbezogene Kontexte sowohl die Unterscheidbarkeit als auch die funktionale Ähnlichkeit zwischen Aktionen beeinflussen, nutzt LoCATe während der zeitlichen Modellierung dilatierte konvolutionale Schichten, um kontextuelle Informationen auf mehreren Skalen zu erfassen. Darüber hinaus modelliert das vorgeschlagene GAT semantische Beziehungen zwischen Klassen und erzielt eine starke Synergie mit den durch LoCATe generierten Video-Embeddings. Umfangreiche Experimente an vier weit verbreiteten Benchmarks – UCF101, HMDB51, ActivityNet und Kinetics – zeigen, dass wir state-of-the-art-Ergebnisse erzielen. Insbesondere erreichen wir relative Verbesserungen von 3,8 % und 4,8 % auf diesen Datensätzen im klassischen ZSAR-Setting und 16,6 % auf UCF101 im generalisierten ZSAR-Setting. Für großskalige Datensätze wie ActivityNet und Kinetics erzielen wir jeweils relative Verbesserungen von 31,8 % und 27,9 % gegenüber früheren Methoden. Zudem erzielen wir gemäß dem jüngsten „TruZe“-Evaluationsprotokoll Verbesserungen von 25,3 % auf UCF101 und 18,4 % auf HMDB51.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| zero-shot-action-recognition-on-activitynet | LoCATe-GAT | Top-1 Accuracy: 73.8 |
| zero-shot-action-recognition-on-hmdb51 | LoCATe-GAT | Top-1 Accuracy: 50.7 |
| zero-shot-action-recognition-on-kinetics | LoCATe-GAT | Top-1 Accuracy: 58.7 |
| zero-shot-action-recognition-on-ucf101 | LoCATe-GAT | Top-1 Accuracy: 76.0 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.