HyperAIHyperAI

Command Palette

Search for a command to run...

VidTr:畳み込みを用いない動画トランスフォーマー

Yanyi Zhang Xinyu Li Chunhui Liu Bing Shuai Yi Zhu Biagio Brattoli Hao Chen Ivan Marsic Joseph Tighe

概要

我々は、分離型アテンション(separable-attention)を用いた動画分類用のVideo Transformer(VidTr)を提案する。一般的に用いられる3Dネットワークと比較して、VidTrはスタックされたアテンションにより空間時間情報を効率的に集約可能であり、高い性能と同時に優れた効率性を実現している。まず、基本的な動画Transformerの構成を提示し、Transformerモジュールが原始ピクセルから空間時間的なモデリングを可能にすることを示すが、その際にはメモリ使用量が非常に大きくなることを指摘する。その後、同じ性能を維持しつつメモリコストを3.3倍削減するVidTrを提案する。さらにモデルの最適化を図るため、標準偏差に基づくtopKプーリング(pooltopKstdpool_{topK_std}pooltopKstd)を導入し、時間次元に沿って情報の少ない特徴量を除去することで計算量を削減する。VidTrは5つの一般的に用いられるデータセットにおいて最先端の性能を達成しつつ、計算要求を低く抑えていることから、本設計の効率性と有効性が示された。最後に、誤差分析および可視化により、VidTrが長期的な時間的推論を要する行動の予測において特に優れた性能を発揮することが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています