AOE-Net: 適応的注意機構を用いた時系列アクション提案のエンティティ相互作用モデリング

時系列アクション提案生成(TAPG)は、トリミングされていない動画からアクション区間を特定するという課題であり、非常に困難なタスクです。直感的に、私たちは人間として、アクター、関連する物体、および周囲の環境との相互作用を通じてアクションを認識します。TAPGにおいて大きな進歩が見られる一方で、既存の方法の大多数は、この人間の認識プロセスの原理を無視し、与えられた動画に対してブラックボックスとしてバックボーンネットワークを適用しています。本論文では、これらの相互作用を多様な表現ネットワークでモデル化することを提案します。具体的には、「アクター-オブジェクト-環境相互作用ネットワーク」(AOE-Net)と呼ばれるネットワークを使用します。私たちのAOE-Netは2つのモジュールで構成されています。すなわち、知覚に基づく多様な表現モジュール(Perception-based Multi-modal Representation: PMR)と境界マッチングモジュール(Boundary-Matching Module: BMM)です。さらに、PMRに適応的注意メカニズム(Adaptive Attention Mechanism: AAM)を導入し、主要なアクター(または関連する物体)にのみ焦点を当てることで、それらの間の関係性をモデル化します。PMRモジュールは、各動画断片を視覚言語特徴量で表現します。ここで、主要なアクターと周囲の環境は視覚情報によって表現され、関連する物体は画像テキストモデルを通じて言語特徴量によって描写されます。BMMモジュールは視覚言語特徴量のシーケンスを受け取り入力として処理し、アクション提案を生成します。ActivityNet-1.3およびTHUMOS-14データセットにおける包括的な実験と広範なアブレーションスタディにより、提案したAOE-NetがTAPGおよび時系列アクション検出において以前の最先端手法よりも著しい性能と汎化能力を持つことが示されました。AOE-Netの堅牢性と有効性を証明するために、エゴセントリックビデオ(EPIC-KITCHENS 100データセット)に対するアブレーションスタディも実施しました。ソースコードは受理された場合に公開予定です。