2ヶ月前
AEI: アダプティブアテンションを用いたアクターエンバイロメント相互作用による時系列アクション提案生成
Khoa Vo; Hyekang Joo; Kashu Yamazaki; Sang Truong; Kris Kitani; Minh-Triet Tran; Ngan Le

要約
人間は通常、ビデオ内の行動の成立をアクターと周囲環境との相互作用を通じて認識します。行動は、ビデオの主要なアクターが環境との相互作用を開始したときに始まり、主要なアクターがその相互作用を停止したときに終わります。時間的な行動提案生成において大きな進歩が見られる一方で、既存の多くの研究では上記の事実が無視され、モデルの学習過程がブラックボックス化されています。本論文では、人間のこの能力をシミュレートするために、アクターエンバイロメントインタラクション(AEI)ネットワークを提案し、時間的な行動提案生成のためのビデオ表現を改善することを目指しています。AEIには2つのモジュールが含まれています。すなわち、知覚に基づく視覚表現(Perception-based Visual Representation: PVR)と境界マッチングモジュール(Boundary-Matching Module: BMM)です。PVRは提案された適応的注意メカニズムを使用して、人間同士の関係と人間-環境関係を取り入れることにより各ビデオスニペットを表現します。その後、BMMはビデオ表現を受け取り、行動提案を生成します。AEIはActivityNet-1.3およびTHUMOS-14データセットにおいて、時間的な行動提案と検出タスクで評価されました。評価には2つの境界マッチングアーキテクチャ(CNNベースおよびGCNベース)と2つの分類器(UnetおよびP-GCN)が使用されました。我々のAEIは両方のタスクにおいて優れた性能と汎化能力を持つことで既存の最先端手法を確実に上回っています。