HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

PDAN: Pyramid Dilated Attention Network für die Aktionsdetektion

{Francois Bremond Gianpiero Francesca Lorenzo Garattoni Luca Minciullo Srijan Das Rui Dai}

PDAN: Pyramid Dilated Attention Network für die Aktionsdetektion

Abstract

Die Behandlung langer und komplexer zeitlicher Informationen stellt eine zentrale Herausforderung für Aufgaben der Aktionsdetektion dar. Diese Herausforderung wird durch die dichte Verteilung von Aktionen in ungeschnittenen Videos weiter verschärft. Bisherige Ansätze zur Aktionsdetektion scheitern daran, die entscheidenden zeitlichen Informationen in langen Videos auszuwählen. Um diesem Problem zu begegnen, führen wir die Dilated Attention Layer (DAL) ein. Im Gegensatz zu herkömmlichen zeitlichen Faltungsoperationen weist die DAL den lokalen Bildern innerhalb des Filters Aufmerksamkeitsgewichte zu, wodurch sie eine verbesserte lokale Repräsentation über die Zeit hinweg lernen kann. Darüber hinaus stellen wir das Pyramid Dilated Attention Network (PDAN) vor, das auf der DAL aufbaut. Durch die Kombination mehrerer DALs mit unterschiedlichen Dilatationsraten ist es PDAN möglich, sowohl kurzfristige als auch langfristige zeitliche Beziehungen gleichzeitig zu modellieren, indem es sich auf lokale Segmente auf Ebene niedriger und hoher zeitlicher Empfindlichkeitsfelder konzentriert. Diese Eigenschaft ermöglicht es PDAN, komplexe zeitliche Beziehungen zwischen verschiedenen Aktionsinstanzen in langen, ungeschnittenen Videos effektiv zu bewältigen. Zur Bestätigung der Wirksamkeit und Robustheit unseres Ansatzes evaluieren wir ihn an drei dicht annotierten, mehrlabel-basierten Datensätzen: MultiTHUMOS, Charades und dem Toyota Smarthome Untrimmed (TSU) Datensatz. PDAN erreicht auf allen diesen Datensätzen eine bessere Leistung als bisherige State-of-the-Art-Methoden.

Benchmarks

BenchmarkMethodikMetriken
action-detection-on-charadesPDAN (RGB+Flow)
mAP: 26.5
action-detection-on-multi-thumosPDAN
mAP: 47.6
action-detection-on-tsuPDAN
Frame-mAP: 32.7
temporal-action-localization-on-multithumos-1PDAN
Average mAP: 17.3

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PDAN: Pyramid Dilated Attention Network für die Aktionsdetektion | Forschungsarbeiten | HyperAI