
要約
行動予測の目的は、行動が起こる前にそれを検出することです。ロボティクスや監視などの多くの実世界アプリケーションがこの予測能力に関連しています。現在の方法では、まず将来のフレームの視覚表現を予測し、その後予測された表現を行動に分類することでこの問題に対処しています。しかし、これらの方法は単一の過去のフレームの表現に基づいており、歴史的な傾向を無視しています。また、固定された未来時間しか予測できません。本研究では、行動予測のために強化学習エンコーダー-デコーダー(Reinforced Encoder-Decoder: RED)ネットワークを提案します。REDは複数の過去の表現を取り込み、将来の表現シーケンスを学習して予測します。REDの特徴的な側面は、シーケンスレベルでの監督を提供する強化モジュールが採用されていることです。報酬関数はシステムが可能な限り早期に正確な予測を行うことを奨励するように設計されています。我々はTVSeries, THUMOS-14, およびTV-Human-InteractionデータセットでREDの行動予測性能を評価しました。その結果、すべてのデータセットにおいて最先端の性能を達成しました。