2ヶ月前

オンライン行動検出のための長短期トランスフォーマー

Xu, Mingze ; Xiong, Yuanjun ; Chen, Hao ; Li, Xinyu ; Xia, Wei ; Tu, Zhuowen ; Soatto, Stefano
オンライン行動検出のための長短期トランスフォーマー
要約

私たちはオンライン行動検出のための時間的モデリングアルゴリズムであるLong Short-term TRansformer(LSTR)を提案します。このアルゴリズムは、長期および短期記憶機構を用いて長期間のシーケンスデータをモデル化します。LSTRは、拡張された時間窓(例:最大8分にわたる2048フレーム)から大まかな歴史情報を動的に活用するLSTRエンコーダと、短い時間窓(例:8秒にわたる32フレーム)に焦点を当ててデータの詳細な特性をモデル化するLSTRデコーダで構成されています。従来の研究と比較して、LSTRはより少ないヒューリスティックを使用することで、長尺ビデオを効果的かつ効率的にモデル化する方法を提供しており、これは広範な経験的分析によって検証されています。LSTRは、THUMOS'14、TVSeries、HACS Segmentという3つの標準的なオンライン行動検出ベンチマークにおいて最先端の性能を達成しています。コードは以下のURLで公開されています: https://xumingze0308.github.io/projects/lstr

オンライン行動検出のための長短期トランスフォーマー | 最新論文 | HyperAI超神経