2ヶ月前

ホリスティック・インタラクション・トランスフォーマー・ネットワークによる行動検出

Faure, Gueter Josmy ; Chen, Min-Hung ; Lai, Shang-Hong
ホリスティック・インタラクション・トランスフォーマー・ネットワークによる行動検出
要約

行動は、環境(他の人々、物体、そして自分自身を含む)との相互作用の方法に関連しています。本論文では、人間のほとんどの行動にとって重要ながこれまであまり注目されていなかった手と姿勢の情報を活用する新しい多モーダルな包括的な相互作用変換ネットワーク「Holistic Interaction Transformer Network (HIT)」を提案します。提案された「HIT」ネットワークは、RGBストリームとポーストリームから構成される二つのモーダルを統合した包括的なフレームワークです。それぞれのストリームは、人物、物体、および手の相互作用を個別にモデル化します。各サブネットワーク内には、選択的に個々の相互作用ユニットを結合する「Intra-Modality Aggregation module (IMA)」が導入されています。その後、各モーダルから得られた特徴量は、「Attentive Fusion Mechanism (AFM)」を使用して統合されます。最後に、キャッシュメモリーから時間的な文脈情報を抽出し、発生している行動の分類をより正確に行います。当手法はJ-HMDB、UCF101-24、MultiSportsデータセットにおいて従来の手法を大幅に上回る結果を示しており、AVAデータセットでも競争力のある結果を得ています。コードはhttps://github.com/joslefaure/HIT で公開予定です。

ホリスティック・インタラクション・トランスフォーマー・ネットワークによる行動検出 | 最新論文 | HyperAI超神経