2ヶ月前

リソース効率的な3次元畳み込みニューラルネットワーク

Okan Köpüklü; Neslihan Kose; Ahmet Gunduz; Gerhard Rigoll
リソース効率的な3次元畳み込みニューラルネットワーク
要約

最近、3次元カーネルを用いた畳み込みニューラルネットワーク(3D CNNs)は、2D CNNsと比較してビデオフレーム内の空間時間特徴を抽出する優れた能力により、コンピュータビジョン分野で非常に注目を集めています。メモリや電力の制約を考慮した効率的な2D CNNアーキテクチャの構築には大きな進歩が見られましたが、3D CNNsにおける同様の効率的なアーキテクチャはほとんど存在しません。本論文では、さまざまな既知の効率的な2D CNNsを3D CNNsに変換し、3つの主要なベンチマークにおいて異なる複雑さレベルでの分類精度を評価しました。具体的には、(1) Kinetics-600データセットで学習能力を検証し、(2) Jesterデータセットで動作パターンの捉え方を検証し、(3) UCF-101データセットで転移学習の適用可能性を検証しました。各モデルの実行時の性能は単一のTitan XP GPUとJetson TX2組み込みシステム上で評価しました。本研究の結果は、これらのモデルが実時間性能と十分な精度およびメモリ使用量を提供することから、様々なタイプの実世界アプリケーションに利用可能であることを示しています。異なる複雑さレベルでの分析結果から、資源効率の良い3D CNNsは複雑さを節約するために浅すぎたり狭すぎたりしてはならないことが明らかになりました。本研究で使用したコードと事前学習済みモデルは公開されています。