PDAN: Pyramid Dilated Attention Network für die Aktionsdetektion

Die Behandlung langer und komplexer zeitlicher Informationen stellt eine zentrale Herausforderung für Aufgaben der Aktionsdetektion dar. Diese Herausforderung wird durch die dichte Verteilung von Aktionen in ungeschnittenen Videos weiter verschärft. Bisherige Ansätze zur Aktionsdetektion scheitern daran, die entscheidenden zeitlichen Informationen in langen Videos auszuwählen. Um diesem Problem zu begegnen, führen wir die Dilated Attention Layer (DAL) ein. Im Gegensatz zu herkömmlichen zeitlichen Faltungsoperationen weist die DAL den lokalen Bildern innerhalb des Filters Aufmerksamkeitsgewichte zu, wodurch sie eine verbesserte lokale Repräsentation über die Zeit hinweg lernen kann. Darüber hinaus stellen wir das Pyramid Dilated Attention Network (PDAN) vor, das auf der DAL aufbaut. Durch die Kombination mehrerer DALs mit unterschiedlichen Dilatationsraten ist es PDAN möglich, sowohl kurzfristige als auch langfristige zeitliche Beziehungen gleichzeitig zu modellieren, indem es sich auf lokale Segmente auf Ebene niedriger und hoher zeitlicher Empfindlichkeitsfelder konzentriert. Diese Eigenschaft ermöglicht es PDAN, komplexe zeitliche Beziehungen zwischen verschiedenen Aktionsinstanzen in langen, ungeschnittenen Videos effektiv zu bewältigen. Zur Bestätigung der Wirksamkeit und Robustheit unseres Ansatzes evaluieren wir ihn an drei dicht annotierten, mehrlabel-basierten Datensätzen: MultiTHUMOS, Charades und dem Toyota Smarthome Untrimmed (TSU) Datensatz. PDAN erreicht auf allen diesen Datensätzen eine bessere Leistung als bisherige State-of-the-Art-Methoden.