
畳み込みニューラルネットワーク(CNN)は、画像認識問題において強力なモデルクラスとして認識されています。しかし、CNNを時空間動画表現の学習に利用する際には、単純ではありません。いくつかの研究では、3次元畳み込みを行うことが、動画内の空間的および時間的次元を捉えるための有益なアプローチであることが示されています。しかしながら、ゼロから非常に深い3D CNNを開発すると、高価な計算コストとメモリ要求が発生します。そこで合理的な疑問が生じます:なぜ既存の2Dネットワークを3D CNNのために再利用しないのか。本論文では、残差学習フレームワーク内で$3\times3\times3$畳み込みを$1\times3\times3$畳み込みフィルタ(空間領域における2D CNNに相当)と$3\times1\times1$畳み込みを使用してシミュレートすることにより、複数のボトルネック構築ブロックのバリエーションを設計しました。さらに、これらのブロックのすべてのバリエーションを利用しつつ、ResNet内の異なる位置にそれぞれ配置することで神経ネットワークの能力を向上させるという哲学に基づいて、新しいアーキテクチャである疑似3D残差ネットワーク(Pseudo-3D Residual Net, P3D ResNet)を提案します。我々のP3D ResNetは、Sports-1M動画分類データセットにおいて3D CNNとフレームベースの2D CNNに対してそれぞれ5.3%と1.8%の明確な改善を達成しました。さらに、事前学習されたP3D ResNetによって生成される動画表現の一貫性について、5つの異なるベンチマークと3つの異なるタスクで検証し、いくつかの最先端技術に対する優れた性能を示しました。