3ヶ月前

動画モデルにおけるスタンドアローン型フレーム間アテンション

Fuchen Long, Zhaofan Qiu, Yingwei Pan, Ting Yao, Jiebo Luo, Tao Mei
動画モデルにおけるスタンドアローン型フレーム間アテンション
要約

動的変化は動画の特異性を特徴づける重要な要素であり、動画理解モデルの発展において不可欠な役割を果たしてきた。現代の深層学習モデルは、時空間3次元畳み込みを実行する、あるいは3次元畳み込みを空間的および時系列的畳み込みに分解する、あるいは時間軸方向に自己注意(self-attention)を計算するといった手法により、動的変化を活用している。こうした成功の背後にある暗黙の仮定は、連続するフレーム間の特徴マップが適切に統合可能であるというものである。しかし、特に大規模な形状変形が生じる領域では、この仮定が常に成り立つとは限らない。本論文では、フレーム間の変形を新たに考慮することで、各空間位置における局所的自己注意を推定する新しいフレーム間注意ブロック、すなわち「スタンドアロンフレーム間注意(Stand-alone Inter-Frame Attention, SIFA)」を提案する。技術的には、SIFAは2つのフレーム間の差分によりオフセット予測を再スケーリングすることで、可変的(deformable)な設計を再構築している。現在のフレームにおける各空間位置をクエリとして扱い、次のフレームにおける局所的に可変的な近傍をキー/バリューとして扱う。その後、SIFAはクエリとキーの類似性をスタンドアロンの注意機構として測定し、その重み付き平均により時系列方向の特徴統合を実現する。さらに、SIFAブロックをConvNetおよびVision Transformerにそれぞれ組み込むことで、SIFA-NetおよびSIFA-Transformerを構築した。4つの動画データセットにおける広範な実験により、SIFA-NetおよびSIFA-Transformerが強力なバックボーンとして優れた性能を発揮することが示された。特に注目すべきは、SIFA-TransformerがKinetics-400データセットにおいて83.1%の精度を達成した点である。ソースコードは以下のURLから公開されている:\url{https://github.com/FuchenUSTC/SIFA}。