3ヶ月前

ビジー・クワイエット動画分離による動画分類

Guoxi Huang, Adrian G. Bors
ビジー・クワイエット動画分離による動画分類
要約

動画データにおいて、運動領域からの詳細な動き情報は周波数領域において特定の周波数帯域に集中して表現される。一方、動画データの残りの周波数成分は、ほとんど冗長性を有する静的な情報で構成されており、これにより、従来の動画モデルが原始的なRGBフレームを入力として用いる場合、処理効率が著しく低下する。本論文では、重要な「忙しい(busy)」情報の処理に集中的な計算資源を割り当て、静的な「静かな(quiet)」情報の処理にはそれよりも少ない計算量を割り当てるアプローチを提案する。これにより、原始動画データから「忙しい」情報と「静かな」情報を分離するための学習可能なモーションバンドパスモジュール(Motion Band-Pass Module; MBPM)を設計した。このMBPMを二パスアーキテクチャを持つCNNに統合することで、「忙しい-静かなネットワーク(Busy-Quiet Net; BQN)」を構築した。BQNの効率性は、二つのパスが処理する特徴空間における冗長性を回避することに起因する:一方のパスは低解像度の「静かな」特徴を処理し、他方のパスは「忙しい」特徴を処理する。提案するBQNは、Something-Something V1、Kinetics400、UCF101、HMDB51の各データセットにおいて、多数の最新動画処理モデルを上回る性能を達成した。