17日前
2Dか、それとも3Dか?効率的な動画認識のための適応的3D畳み込み選択
Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis

要約
3D畳み込みネットワークは、動画認識において広く用いられている。標準的なベンチマークにおいて優れた認識性能を達成している一方で、3D畳み込みを用いてフレームの時系列シーケンスを処理するため、計算コストが非常に高くなるという課題がある。異なる動画間における大きな変動を活用して、本研究ではAda3Dという条件付き計算フレームワークを提案する。このフレームワークは、各入力動画クリップに応じて個別に最適な3D畳み込みの使用方針(3D usage policies)を学習し、3Dネットワーク内でどのフレームや畳み込み層を使用するかを決定する。これらの使用方針は、入力動画クリップを条件とした2ヘッド構造の軽量選択ネットワークによって導出される。その後、選択ネットワークによって選ばれたフレームおよび畳み込み層のみが3Dモデルで使用され、予測が生成される。選択ネットワークは、計算リソースを制限しつつ正確な予測を促進する報酬を最大化するように、ポリシー勾配法により最適化される。3つの動画認識ベンチマーク上で実験を行い、本手法が最先端の3Dモデルと同等の精度を達成しつつ、異なるデータセットで20%~50%の計算量削減を実現できることを示した。また、学習された使用方針が他のモデルやアーキテクチャに転移可能であり、異なるバックボーンや現代的なクリップ選択アプローチとも互換性があることを示した。定性的な分析から、本手法は「静止」している入力に対してはより少ない3D畳み込みとフレームを使用する一方で、運動量の多い動画クリップに対してはより多くの計算資源を割り当てることが明らかになった。