
要約
オンラインアクション検出(Online Action Detection, OAD)とは、未来のフレームにアクセスせずにストリーミング動画内のアクションを検出するタスクである。長距離の依存関係を効果的に捉えることに多くの研究が注がれており、特に変換器(transformer)は長距離の時系列構造を捉える能力により注目されている。一方で、近年の変換器を活用した手法に比べて性能が劣るため、リカレントニューラルネットワーク(RNN)は近年あまり注目されていない。本論文では、RNNが変換器ベースのアルゴリズムに比べて性能が劣る根本的な要因を調査する。その結果、訓練段階と推論段階の間に生じる乖離が、RNNの効果的な学習を妨げる主な要因であることが明らかになった。これを解決するために、各時刻における損失に非一様な重みを適用する手法を提案する。これにより、RNNモデルは推論段階に近い環境で予測から学習することが可能となる。THUMOS、TVSeries、FineActionの3つのベンチマークデータセットを用いた広範な実験の結果、提案手法によって訓練された最小限のRNNベースモデルが、既存の最良手法と同等またはそれ以上の性能を発揮しつつ、大幅な効率性の向上を達成した。コードは以下のURLで公開されている:https://github.com/jbistanbul/MiniROAD。