17日前

CT-Net:動画分類のためのチャネルテンソライゼーションネットワーク

Kunchang Li, Xianhang Li, Yali Wang, Jun Wang, Yu Qiao
CT-Net:動画分類のためのチャネルテンソライゼーションネットワーク
要約

3D畳み込みは動画分類において強力な手法であるが、計算コストが高くなる傾向にあり、近年の研究は主に空間時間的および/またはチャネル次元における分解に注力している。しかし、大多数の手法は畳み込みの効率性と特徴間相互作用の十分性の間で望ましいバランスを達成できていない。この問題を解決するため、本研究では入力特徴のチャネル次元をK個の部分次元の積として扱うことで、簡潔かつ新規なチャネルテンソル化ネットワーク(CT-Net)を提案する。本手法は複数次元にわたる畳み込みの自然な因子分解を実現し、計算負荷を軽減する一方で、異なるチャネル間の特徴相互作用を効果的に強化し、その相互作用の3D受容 field を段階的に拡大することで分類精度の向上を図る。さらに、CTモジュールに高次元的な観点から空間的・時間的・チャネル的注目メカニズムを学習可能なテンソル励起(Tensor Excitation: TE)機構を導入することで、CTモジュール内のすべての特徴次元間の協調性を強化する。最終的に、ResNetを柔軟にCT-Netに統合するアーキテクチャを構築した。提案手法はKinetics-400、Something-Something V1およびV2など、複数の難易度の高い動画ベンチマークで広範な実験を実施した結果、精度および/または効率の面で、多数の最新の最先端(SOTA)手法を上回ることを確認した。コードおよびモデルは、https://github.com/Andy1621/CT-Net にて公開予定である。

CT-Net:動画分類のためのチャネルテンソライゼーションネットワーク | 最新論文 | HyperAI超神経