2ヶ月前

多様な時間集約と深さ方向の時空間分解を用いた効率的なビデオ分類

Lee, Youngwan ; Kim, Hyung-Il ; Yun, Kimin ; Moon, Jinyoung
多様な時間集約と深さ方向の時空間分解を用いた効率的なビデオ分類
要約

最近注目を集めているビデオ分類の研究は、時間モデリングと効率的な3Dアーキテクチャの分野である。しかし、時間モデリング手法は効率的でなく、または効率的な3Dアーキテクチャは時間モデリングにそれほど関心を示していない。これらのギャップを埋めるために、我々は時間モデリングが効率的な3DアーキテクチャであるVoV3Dを提案する。このVoV3Dは、異なる時間受容野を持つ時間特徴を集約して特徴階層を構築するための一発集合(Temporal One-Shot Aggregation: T-OSA)モジュールと、深さ分解コンポーネントであるD(2+1)Dから構成されている。T-OSAモジュールを積み重ねることにより、ネットワーク自体が外部モジュールなしでフレーム間の短距離および長距離の時間関係をモデル化できるようになる。カーネル分解とチャンネル分解に着想を得て、我々はまた深さ方向の空間・時間分解モジュール(Depthwise Spatiotemporal Factorization Module: D(2+1)D)を設計した。これにより、3次元深さ方向畳み込みを2つの空間と時間の深さ方向畳み込みに分解し、ネットワークをより軽量かつ効率的にすることができる。提案された時間モデリング手法(T-OSA)と効率的な分解コンポーネント(D(2+1)D)を使用して、VoV3D-MとVoV3D-Lという2種類のVoV3Dネットワークを構築した。その効率性と有効性により、VoV3D-LはSomething-SomethingおよびKinetics-400において最新の時間モデリング手法を超える性能を達成しており、モデルパラメータが6倍少なく計算量も16倍少ない。さらに、VoV3DはX3Dという最新の効率的な3Dアーキテクチャよりも優れた時間モデリング能力を持ちつつ、同等のモデル容量で動作することを示している。我々はVoV3Dが効率的なビデオ分類における基準となることを期待している。

多様な時間集約と深さ方向の時空間分解を用いた効率的なビデオ分類 | 最新論文 | HyperAI超神経