17日前

より多くがより少ないものになる:ビッグリトルネットワークとディープワイズ時系列集約を用いた効率的な動画表現の学習

Quanfu Fan, Chun-Fu Chen, Hilde Kuehne, Marco Pistoia, David Cox
より多くがより少ないものになる:ビッグリトルネットワークとディープワイズ時系列集約を用いた効率的な動画表現の学習
要約

現在の動画行動認識の最先端モデルは、大部分が高コストな3D ConvNetに依拠している。このため、こうしたアーキテクチャの学習および評価には大規模なGPUクラスタが必須となる。本研究では、リソースのわずかな一部を用いるだけで、既存のアーキテクチャと同等あるいはそれ以上の性能を達成できる、軽量かつメモリ効率の高い行動認識用アーキテクチャを提案する。提案手法は、低解像度フレーム上で動作する深層サブネットと、高解像度フレーム上で動作するコンパクトなサブネットを組み合わせた構造に基づく。これにより、高効率性と高精度の両立が可能となる。実験結果から、ベースラインモデルと比較して、FLOPsが3~4倍、メモリ使用量が約2倍削減されることを示した。この効果により、同一の計算リソース制約下でより深いモデルやより多くの入力フレームを扱えるようになる。さらに、大規模な3D畳み込みの必要性を低減するため、時間的依存性を非常に低い追加計算コストでモデル化するための時系列集約モジュールを提案した。本モデルはKinetics、Something-Something、Moments-in-timeなど、複数の行動認識ベンチマークにおいて優れた性能を示した。コードおよびモデルは、https://github.com/IBM/bLVNet-TAM にて公開されている。

より多くがより少ないものになる:ビッグリトルネットワークとディープワイズ時系列集約を用いた効率的な動画表現の学習 | 最新論文 | HyperAI超神経