2ヶ月前

外観と関係性ネットワークによるビデオ分類

Limin Wang; Wei Li; Wen Li; Luc Van Gool
外観と関係性ネットワークによるビデオ分類
要約

動画における時空間特徴学習は、コンピュータビジョンの基本的な問題です。本論文では、Appearance-and-Relation Network(ARTNet)と呼ばれる新しいアーキテクチャを提案し、エンドツーエンドで動画表現を学習する方法を提示します。ARTNetは、SMARTと呼ばれる一般的な構成要素を積み重ねて構築されます。SMARTの目的は、RGB入力から外観と関係性を別々かつ明確に同時にモデル化することです。具体的には、SMARTブロックは時空間学習モジュールを外観ブランチと関係性ブランチに分離します。外観ブランチは各フレーム内のピクセルやフィルタ応答の線形結合に基づいて実装され、関係性ブランチは複数のフレーム間でのピクセルやフィルタ応答の乗法相互作用に基づいて設計されています。我々はKinetics、UCF101、HMDB51という3つの行動認識ベンチマークデータセットで実験を行い、SMARTブロックが3次元畳み込みよりも時空間特徴学習において明確な改善をもたらすことを示しました。同じ訓練設定のもとで、ARTNetはこれらの3つのデータセットにおいて既存の最先端手法よりも優れた性能を達成しています。

外観と関係性ネットワークによるビデオ分類 | 最新論文 | HyperAI超神経