ABN: エージェント認識境界ネットワークによる時間的アクション提案生成

時系列アクション提案生成(TAPG)は、トリミングされていない動画におけるアクションの時間間隔を推定することを目指しており、これは多くの動画解析や理解のタスクにおいて難易度が高く重要な役割を果たしています。TAPGにおける大きな進歩にもかかわらず、既存のほとんどの研究では、エージェントと周囲環境との相互作用の人間の知覚を無視しており、深層学習モデルをブラックボックスとしてトリミングされていない動画に適用してビデオの視覚表現を抽出しています。したがって、これらのエージェントと環境との相互作用を捉えることができれば、TAPGの性能向上に寄与し得ます。本論文では、新しいフレームワークであるエージェント認識境界ネットワーク(ABN)を提案します。このフレームワークは2つのサブネットワークで構成されています。(i) エージェント認識表現ネットワーク:ビデオ表現においてエージェント同士およびエージェントと環境との関係性を得るためのものであり、(ii) 境界生成ネットワーク:時間間隔の信頼度スコアを推定するためのものです。エージェント認識表現ネットワークでは、エージェント間の相互作用はローカルパスウェイを通じて表現され、これは局所的なレベルで動作し、エージェントの動きに焦点を当てます。一方で、周围環境全体に対する知覚はグローバルパスウェイを通じて表現され、これは全体的なレベルで動作し、エージェントと環境との影響を感じ取ります。C3D, SlowFast, Two-Streamなどの異なるバックボーンネットワークを使用して20アクションのTHUMOS-14データセットと200アクションのActivityNet-1.3データセットでの包括的な評価を行った結果、提案したABNは使用されるバックボーンネットワークに関わらずTAPGにおいて最先端手法よりも堅牢に優れた性能を示しました。さらに、我々は提案された方法によって生成された提案を利用し、時系列アクション検出(TAD)フレームワーク上でその検出性能を評価することで提案品質を検証しました。ソースコードは以下のURLから入手可能です: https://github.com/vhvkhoa/TAPG-AgentEnvNetwork.git.