Langfristig-Kurzfristiger Transformer für die Online-Erkennung von Aktionen

Wir stellen den Long Short-term Transformer (LSTR) vor, einen zeitlichen Modellierungsalgorithmus für die Online-Aktionserkennung, der ein Langzeit- und Kurzzeitgedächtnis-Mechanismus verwendet, um langfristige Sequenzdaten zu modellieren. Er besteht aus einem LSTR-Codierer, der grob skalierte historische Informationen aus einem erweiterten zeitlichen Fenster (z.B. 2048 Frames, die bis zu 8 Minuten abdecken) dynamisch nutzt, sowie einem LSTR-Decodierer, der sich auf ein kurzes Zeitfenster (z.B. 32 Frames, die 8 Sekunden abdecken) konzentriert, um die fein skalierten Merkmale der Daten zu modellieren. Im Vergleich zu früheren Arbeiten bietet LSTR eine effektive und effiziente Methode zur Modellierung langer Videos mit weniger Heuristik, was durch umfangreiche empirische Analysen bestätigt wird. LSTR erreicht den aktuellen Stand der Technik in drei standardisierten Benchmarks für Online-Aktionserkennung: THUMOS'14, TVSeries und HACS Segment. Der Quellcode ist unter folgender URL verfügbar: https://xumingze0308.github.io/projects/lstr