HyperAIHyperAI
vor 17 Tagen

EAN: Event Adaptive Network für verbesserte Aktionserkennung

Yuan Tian, Yichao Yan, Guangtao Zhai, Guodong Guo, Zhiyong Gao
EAN: Event Adaptive Network für verbesserte Aktionserkennung
Abstract

Die effiziente Modellierung räumlich-zeitlicher Informationen in Videos ist entscheidend für die Aktionserkennung. Um dieses Ziel zu erreichen, verwenden aktuelle state-of-the-art-Methoden typischerweise den Faltungsoperator sowie dichte Interaktionsmodule wie Non-Local-Blöcke. Diese Ansätze können jedoch die vielfältigen Ereignisse in Videos nicht präzise erfassen. Zum einen sind die eingesetzten Faltungen auf festgelegte Skalen beschränkt und stoßen daher bei Ereignissen unterschiedlicher Größenordnung an ihre Grenzen. Zum anderen erreicht das Paradigma der dichten Interaktionsmodellierung nur eine suboptimale Leistung, da handlungsunabhängige Regionen zusätzlichen Rauschanteil für die endgültige Vorhersage beitragen. In diesem Artikel stellen wir einen einheitlichen Rahmen für die Aktionserkennung vor, der die dynamische Natur von Videoinhalten untersucht, indem wir folgende Entwürfe einführen: Erstens generieren wir bei der Extraktion lokaler Hinweise räumlich-zeitliche Kerne mit dynamischer Skalierung, um sich adaptiv an die unterschiedlichen Ereignisse anzupassen. Zweitens schlagen wir vor, die Interaktionen ausschließlich zwischen einer kleinen Anzahl ausgewählter Vordergrundobjekte mittels eines Transformers zu ermitteln, wodurch ein spärliches Paradigma entsteht. Wir bezeichnen den vorgeschlagenen Rahmen als Event Adaptive Network (EAN), da beide zentralen Entwürfe an den Eingabevideoinhalt angepasst sind. Um kurzfristige Bewegungen innerhalb lokaler Segmente effizient auszunutzen, stellen wir ein neuartiges und effizientes Latent Motion Code (LMC)-Modul vor, das die Leistung des Rahmens weiter verbessert. Umfangreiche Experimente auf mehreren großen Video-Datensätzen – beispielsweise Something-to-Something V1 & V2, Kinetics und Diving48 – bestätigen, dass unsere Modelle bei niedrigen FLOPs (FLOPs = Floating Point Operations) state-of-the-art oder wettbewerbsfähige Ergebnisse erzielen. Der Quellcode ist verfügbar unter: https://github.com/tianyuan168326/EAN-Pytorch.