2ヶ月前

時空間表現の学習:局所拡散と全局所拡散を用いて

Zhaofan Qiu; Ting Yao; Chong-Wah Ngo; Xinmei Tian; Tao Mei
時空間表現の学習:局所拡散と全局所拡散を用いて
要約

畳み込みニューラルネットワーク(CNN)は、視覚認識問題のための強力なモデルクラスとして認識されています。しかし、これらのネットワーク内の畳み込みフィルターは局所的な操作であり、広範囲の依存関係を無視しています。特にビデオ認識において、この欠点はさらに悪化します。ビデオは複雑な時間変動を持つ情報密度の高い媒体であるためです。本論文では、局所と全局の拡散(Local and Global Diffusion: LGD)によって空間・時間表現学習を強化する新しいフレームワークを提案します。具体的には、局所と全局の表現を並列に学習する新しいニューラルネットワークアーキテクチャを構築しました。このアーキテクチャはLGDブロックで構成されており、各ブロックではこれら2つの表現間の拡散をモデル化することで局所および全局特徴を更新します。拡散は局所的な情報と全体的な情報という2つの側面を効果的に相互作用させ、より強力な表現学習方法を実現します。さらに、カーネル化分類器が導入され、2つの側面からの表現を組み合わせてビデオ認識を行います。私たちのLGDネットワークは、大規模なKinetics-400およびKinetics-600ビデオ分類データセットにおいて最良の競合他社に対して3.5%と0.7%の明確な改善を達成しました。また、事前学習されたLGDネットワークによって生成された全局および局所表現の汎化能力について、ビデオアクション認識と空間・時間アクション検出タスク向けの4つの異なるベンチマークで評価しました。これらのベンチマークにおいてもいくつかの最先端技術を超える優れた性能が報告されています。コードは以下のURLから入手可能です: https://github.com/ZhaofanQiu/local-and-global-diffusion-networks.

時空間表現の学習:局所拡散と全局所拡散を用いて | 最新論文 | HyperAI超神経