17日前

ボールに目を向け続けること:動画Transformerにおける軌道注意

Mandela Patrick, Dylan Campbell, Yuki M. Asano, Ishan Misra, Florian Metze, Christoph Feichtenhofer, Andrea Vedaldi, João F. Henriques
ボールに目を向け続けること:動画Transformerにおける軌道注意
要約

動画変換器(video transformers)では、時間次元が通常、2つの空間次元と同じように扱われます。しかし、物体やカメラが移動するシーンでは、時刻$t$のフレームにおけるある物理的点が、時刻$t+k$のフレームにおける同じ位置に存在するものとはまったく無関係である場合があります。このような時間的対応関係を適切にモデル化することが、動的シーンの理解を促進するために重要です。そこで本研究では、動的な動き経路を暗黙的に決定し、その経路に沿って情報を集約する「トラジェクトリーアテンション(trajectory attention)」という新たなドロップイン型ブロックを提案します。さらに、入力サイズに対して計算量およびメモリ使用量が二次関数的に増加する問題を克服するための新しい手法も提案しています。この問題は特に高解像度または長時間の動画処理において極めて重要です。これらのアイデアは多様な設定で有用ですが、特に変換器モデルを用いた動画行動認識というタスクに適用し、Kinetics、Something-Something V2、Epic-Kitchensの各データセットにおいて最先端の性能を達成しました。コードおよびモデルは以下のリンクから公開されています:https://github.com/facebookresearch/Motionformer

ボールに目を向け続けること:動画Transformerにおける軌道注意 | 最新論文 | HyperAI超神経