HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

LoCATe-GAT: Modellierung von Multi-Skalen-Lokalen Kontexten und Aktionsbeziehungen für Zero-Shot-Aktionserkennung

{Arijit Sur Divyam Singal Sandipan Sarma}

Abstract

Die zunehmende Anzahl von Aktionen in der realen Welt macht es traditionellen Deep-Learning-Modellen schwer, unbekannte Aktionen zu erkennen. In jüngster Zeit wurden vortrainierte, kontrastive bildbasierte visuell-sprachliche (I-VL) Modelle angepasst, um eine effiziente „Zero-Shot“-Szenenverstehens zu ermöglichen. Die Kombination solcher Modelle mit Transformers zur Implementierung einer zeitlichen Modellierung hat sich für die Zero-Shot-Aktionserkennung (ZSAR) als lohnend erwiesen. Die Bedeutung der Modellierung des lokalen räumlichen Kontexts von Objekten und Aktionsumgebungen bleibt jedoch bisher unerforscht. In dieser Arbeit stellen wir einen ZSAR-Framework namens LoCATe-GAT vor, der aus einem neuartigen Local Context-Aggregating Temporal Transformer (LoCATe) und einem Graph Attention Network (GAT) besteht. Konkret werden Bild- und Textcodierungen, die aus einem vortrainierten I-VL-Modell extrahiert wurden, als Eingaben für LoCATe-GAT verwendet. Ausgehend von der Beobachtung, dass objektzentrierte und umgebungsbezogene Kontexte sowohl die Unterscheidbarkeit als auch die funktionale Ähnlichkeit zwischen Aktionen beeinflussen, nutzt LoCATe während der zeitlichen Modellierung dilatierte konvolutionale Schichten, um kontextuelle Informationen auf mehreren Skalen zu erfassen. Darüber hinaus modelliert das vorgeschlagene GAT semantische Beziehungen zwischen Klassen und erzielt eine starke Synergie mit den durch LoCATe generierten Video-Embeddings. Umfangreiche Experimente an vier weit verbreiteten Benchmarks – UCF101, HMDB51, ActivityNet und Kinetics – zeigen, dass wir state-of-the-art-Ergebnisse erzielen. Insbesondere erreichen wir relative Verbesserungen von 3,8 % und 4,8 % auf diesen Datensätzen im klassischen ZSAR-Setting und 16,6 % auf UCF101 im generalisierten ZSAR-Setting. Für großskalige Datensätze wie ActivityNet und Kinetics erzielen wir jeweils relative Verbesserungen von 31,8 % und 27,9 % gegenüber früheren Methoden. Zudem erzielen wir gemäß dem jüngsten „TruZe“-Evaluationsprotokoll Verbesserungen von 25,3 % auf UCF101 und 18,4 % auf HMDB51.

Benchmarks

BenchmarkMethodikMetriken
zero-shot-action-recognition-on-activitynetLoCATe-GAT
Top-1 Accuracy: 73.8
zero-shot-action-recognition-on-hmdb51LoCATe-GAT
Top-1 Accuracy: 50.7
zero-shot-action-recognition-on-kineticsLoCATe-GAT
Top-1 Accuracy: 58.7
zero-shot-action-recognition-on-ucf101LoCATe-GAT
Top-1 Accuracy: 76.0

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LoCATe-GAT: Modellierung von Multi-Skalen-Lokalen Kontexten und Aktionsbeziehungen für Zero-Shot-Aktionserkennung | Forschungsarbeiten | HyperAI