11日前
1000フレームにわたる10億パラメータを有するエンドツーエンド時系列行動検出
Shuming Liu, Chen-Lin Zhang, Chen Zhao, Bernard Ghanem

要約
最近、エンドツーエンド学習を用いた時系列行動検出(Temporal Action Detection, TAD)は著しい性能向上を遂げている。しかし、メモリのボトルネックのため、エンドツーエンド学習が可能なモデルは規模が限定的であり、使用可能なデータ量も限られている。その結果、TADの性能が必然的に制限されている。本論文では、エンドツーエンド学習におけるメモリ消費を低減することで、TADのバックボーンを10億パラメータ規模まで拡張し、入力動画のフレーム数を1,536フレームまで増加させることに成功し、顕著な検出性能の向上を達成した。本手法の鍵は、提案する「時系列情報適応モジュール(Temporal-Informative Adapter, TIA)」にある。TIAは新規の軽量モジュールであり、学習時のメモリ消費を削減する。TIAを用いることで、巨大なバックボーンがTADタスクに適応するための学習を不要とし、学習中に更新されるパラメータはTIA内のもののみとなる。さらに、TIAはバックボーン全体にわたって隣接フレームの時系列的文脈を統合することで、より優れたTAD表現を実現する。本モデルは4つの代表的なデータセット上で評価された。効率的な設計により、VideoMAEv2-giant上でエンドツーエンド学習が可能となり、THUMOS14では75.4%のmAPを達成した。これは、最良の特徴ベース手法を上回る初のエンドツーエンドモデルである。コードは以下のURLで公開されている:https://github.com/sming256/AdaTAD。