HyperAIHyperAI

Command Palette

Search for a command to run...

PDAN: Pyramid Dilated Attention Network für die Aktionsdetektion

Francois Bremond Gianpiero Francesca Lorenzo Garattoni Luca Minciullo Srijan Das Rui Dai

Zusammenfassung

Die Behandlung langer und komplexer zeitlicher Informationen stellt eine zentrale Herausforderung für Aufgaben der Aktionsdetektion dar. Diese Herausforderung wird durch die dichte Verteilung von Aktionen in ungeschnittenen Videos weiter verschärft. Bisherige Ansätze zur Aktionsdetektion scheitern daran, die entscheidenden zeitlichen Informationen in langen Videos auszuwählen. Um diesem Problem zu begegnen, führen wir die Dilated Attention Layer (DAL) ein. Im Gegensatz zu herkömmlichen zeitlichen Faltungsoperationen weist die DAL den lokalen Bildern innerhalb des Filters Aufmerksamkeitsgewichte zu, wodurch sie eine verbesserte lokale Repräsentation über die Zeit hinweg lernen kann. Darüber hinaus stellen wir das Pyramid Dilated Attention Network (PDAN) vor, das auf der DAL aufbaut. Durch die Kombination mehrerer DALs mit unterschiedlichen Dilatationsraten ist es PDAN möglich, sowohl kurzfristige als auch langfristige zeitliche Beziehungen gleichzeitig zu modellieren, indem es sich auf lokale Segmente auf Ebene niedriger und hoher zeitlicher Empfindlichkeitsfelder konzentriert. Diese Eigenschaft ermöglicht es PDAN, komplexe zeitliche Beziehungen zwischen verschiedenen Aktionsinstanzen in langen, ungeschnittenen Videos effektiv zu bewältigen. Zur Bestätigung der Wirksamkeit und Robustheit unseres Ansatzes evaluieren wir ihn an drei dicht annotierten, mehrlabel-basierten Datensätzen: MultiTHUMOS, Charades und dem Toyota Smarthome Untrimmed (TSU) Datensatz. PDAN erreicht auf allen diesen Datensätzen eine bessere Leistung als bisherige State-of-the-Art-Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PDAN: Pyramid Dilated Attention Network für die Aktionsdetektion | Paper | HyperAI