HyperAIHyperAI
vor 2 Monaten

Langfristig-Kurzfristiger Transformer für die Online-Erkennung von Aktionen

Xu, Mingze ; Xiong, Yuanjun ; Chen, Hao ; Li, Xinyu ; Xia, Wei ; Tu, Zhuowen ; Soatto, Stefano
Langfristig-Kurzfristiger Transformer für die Online-Erkennung von Aktionen
Abstract

Wir stellen den Long Short-term Transformer (LSTR) vor, einen zeitlichen Modellierungsalgorithmus für die Online-Aktionserkennung, der ein Langzeit- und Kurzzeitgedächtnis-Mechanismus verwendet, um langfristige Sequenzdaten zu modellieren. Er besteht aus einem LSTR-Codierer, der grob skalierte historische Informationen aus einem erweiterten zeitlichen Fenster (z.B. 2048 Frames, die bis zu 8 Minuten abdecken) dynamisch nutzt, sowie einem LSTR-Decodierer, der sich auf ein kurzes Zeitfenster (z.B. 32 Frames, die 8 Sekunden abdecken) konzentriert, um die fein skalierten Merkmale der Daten zu modellieren. Im Vergleich zu früheren Arbeiten bietet LSTR eine effektive und effiziente Methode zur Modellierung langer Videos mit weniger Heuristik, was durch umfangreiche empirische Analysen bestätigt wird. LSTR erreicht den aktuellen Stand der Technik in drei standardisierten Benchmarks für Online-Aktionserkennung: THUMOS'14, TVSeries und HACS Segment. Der Quellcode ist unter folgender URL verfügbar: https://xumingze0308.github.io/projects/lstr

Langfristig-Kurzfristiger Transformer für die Online-Erkennung von Aktionen | Neueste Forschungsarbeiten | HyperAI