18日前

VidTr：畳み込みを用いない動画トランスフォーマー

Yanyi Zhang, Xinyu Li, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, Joseph Tighe

要約

我々は、分離型アテンション（separable-attention）を用いた動画分類用のVideo Transformer（VidTr）を提案する。一般的に用いられる3Dネットワークと比較して、VidTrはスタックされたアテンションにより空間時間情報を効率的に集約可能であり、高い性能と同時に優れた効率性を実現している。まず、基本的な動画Transformerの構成を提示し、Transformerモジュールが原始ピクセルから空間時間的なモデリングを可能にすることを示すが、その際にはメモリ使用量が非常に大きくなることを指摘する。その後、同じ性能を維持しつつメモリコストを3.3倍削減するVidTrを提案する。さらにモデルの最適化を図るため、標準偏差に基づくtopKプーリング（$pool_{topK_std}$）を導入し、時間次元に沿って情報の少ない特徴量を除去することで計算量を削減する。VidTrは5つの一般的に用いられるデータセットにおいて最先端の性能を達成しつつ、計算要求を低く抑えていることから、本設計の効率性と有効性が示された。最後に、誤差分析および可視化により、VidTrが長期的な時間的推論を要する行動の予測において特に優れた性能を発揮することが明らかになった。