2ヶ月前
多層ファイバーネットワークを用いたビデオ認識
Yunpeng Chen; Yannis Kalantidis; Jianshu Li; Shuicheng Yan; Jiashi Feng

要約
本論文では、空間時間深層ニューラルネットワークの計算コストを削減し、2Dの同等モデルと同様の速度で動作させつつ、ビデオ認識ベンチマークでの最先端の精度を維持することを目指しています。この目的のために、複雑なニューラルネットワークを軽量なネットワーク群またはファイバーに分割する新しいマルチファイバーアーキテクチャを提案します。さらに、ファイバー間の情報伝達を促進するためにマルチプレクサモジュールを取り入れることで、3Dネットワークの計算コストを1桁削減しつつ、認識性能も向上させるアーキテクチャを開発しました。広範な実験結果は、提案したマルチファイバーアーキテクチャが既存の畳み込みネットワークの効率を大幅に向上させ、画像認識およびビデオ認識タスクにおいて最先端の性能を達成することを示しています。UCF-101, HMDB-51, Kineticsデータセットでの評価結果は、提案モデルがI3DモデルとR(2+1)Dモデルに対してそれぞれ9倍以上と13倍以上の計算量削減を実現しながら、より高い精度を提供することを確認しています。