HyperAIHyperAI

Command Palette

Search for a command to run...

EAN: Event Adaptive Network für verbesserte Aktionserkennung

Yuan Tian Yichao Yan Guangtao Zhai Guodong Guo Zhiyong Gao

Zusammenfassung

Die effiziente Modellierung räumlich-zeitlicher Informationen in Videos ist entscheidend für die Aktionserkennung. Um dieses Ziel zu erreichen, verwenden aktuelle state-of-the-art-Methoden typischerweise den Faltungsoperator sowie dichte Interaktionsmodule wie Non-Local-Blöcke. Diese Ansätze können jedoch die vielfältigen Ereignisse in Videos nicht präzise erfassen. Zum einen sind die eingesetzten Faltungen auf festgelegte Skalen beschränkt und stoßen daher bei Ereignissen unterschiedlicher Größenordnung an ihre Grenzen. Zum anderen erreicht das Paradigma der dichten Interaktionsmodellierung nur eine suboptimale Leistung, da handlungsunabhängige Regionen zusätzlichen Rauschanteil für die endgültige Vorhersage beitragen. In diesem Artikel stellen wir einen einheitlichen Rahmen für die Aktionserkennung vor, der die dynamische Natur von Videoinhalten untersucht, indem wir folgende Entwürfe einführen: Erstens generieren wir bei der Extraktion lokaler Hinweise räumlich-zeitliche Kerne mit dynamischer Skalierung, um sich adaptiv an die unterschiedlichen Ereignisse anzupassen. Zweitens schlagen wir vor, die Interaktionen ausschließlich zwischen einer kleinen Anzahl ausgewählter Vordergrundobjekte mittels eines Transformers zu ermitteln, wodurch ein spärliches Paradigma entsteht. Wir bezeichnen den vorgeschlagenen Rahmen als Event Adaptive Network (EAN), da beide zentralen Entwürfe an den Eingabevideoinhalt angepasst sind. Um kurzfristige Bewegungen innerhalb lokaler Segmente effizient auszunutzen, stellen wir ein neuartiges und effizientes Latent Motion Code (LMC)-Modul vor, das die Leistung des Rahmens weiter verbessert. Umfangreiche Experimente auf mehreren großen Video-Datensätzen – beispielsweise Something-to-Something V1 & V2, Kinetics und Diving48 – bestätigen, dass unsere Modelle bei niedrigen FLOPs (FLOPs = Floating Point Operations) state-of-the-art oder wettbewerbsfähige Ergebnisse erzielen. Der Quellcode ist verfügbar unter: https://github.com/tianyuan168326/EAN-Pytorch.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp