多エージェント強化学習に基づくフレームサンプリングによる効果的なノントリミング動画認識

ビデオ認識は大きな研究の関心を集め、大きな進歩が見られています。適切なフレームサンプリング戦略は認識の精度と効率を向上させることができます。しかし、主流の解決策は一般的に手動で設計されたフレームサンプリング戦略を採用しており、特にトリミングされていないビデオにおいて、フレームレベルの注目度の変動により性能が低下する可能性があります。この問題に対処するために、学習ベースのフレームサンプリング戦略を開発することで、トリミングされていないビデオの分類を改善することに焦点を当てています。私たちは直感的に、フレームサンプリングプロセスを複数の並列マルコフ決定過程として定式化します。それぞれの過程は、初期サンプリングを段階的に調整して、フレームまたはクリップを選択することを目指しています。その後、多エージェント強化学習(MARL)を使用してこれらの問題を解決することを提案します。私たちのMARLフレームワークには、近傍エージェント間および特定のエージェントの過去状態におけるコンテキスト情報を共同でモデル化する新しいRNNベースのコンテキストアウェア観測ネットワーク、各ステップで事前に定義されたアクション空間上の確率分布を生成するポリシーネットワーク、報酬計算および最終的な認識を行うための分類ネットワークが含まれています。広範な実験結果から、私たちのMARLベースのスキームは様々な2Dおよび3D基準手法に対して手動で設計された戦略よりも著しく優れた性能を示していることが確認されました。単一RGBモデルでは、多モーダル・マルチモデル融合によるActivityNet v1.3チャンピオンサブミッションと同等以上の性能を達成し、YouTube BirdsおよびYouTube Carsにおいて新しい最先端結果を得ています。