2ヶ月前

OadTR: オンライン行動検出のためのトランスフォーマーを使用した手法

Xiang Wang; Shiwei Zhang; Zhiwu Qing; Yuanjie Shao; Zhengrong Zuo; Changxin Gao; Nong Sang
OadTR: オンライン行動検出のためのトランスフォーマーを使用した手法
要約

オンライン行動検出の最近のアプローチでは、長期間の時系列構造を捉えるために再帰型ニューラルネットワーク(RNN)が用いられる傾向があります。しかし、RNNは並列処理が困難であり、勾配消失問題にも悩まされるため、最適化が難しいという課題があります。本論文では、これらの問題を解決するために、トランスフォーマーを基にした新しいエンコーダー-デコーダーフレームワークであるOadTRを提案します。タスクトークン付きのエンコーダーは、過去の観測値間の関係性と全体的な相互作用を捉えることを目指しています。一方、デコーダーは予想される未来のクリップ表現を集約することで補助情報を抽出します。これにより、OadTRは歴史的情報をエンコードし、同時に未来のコンテキストを予測することによって現在の行動を認識することができます。我々は提案するOadTRについて、HDD、TVSeries、およびTHUMOS14という3つの挑戦的なデータセットで広範に評価を行いました。実験結果から、OadTRは現行のRNNベースの手法よりも高い学習速度と推論速度を達成しており、mAP(平均精度)とmcAP(クラス別平均精度)においても既存の最先端手法を大幅に上回ることが示されました。コードはhttps://github.com/wangxiang1230/OadTR で公開されています。

OadTR: オンライン行動検出のためのトランスフォーマーを使用した手法 | 最新論文 | HyperAI超神経