HyperAIHyperAI

Command Palette

Search for a command to run...

ボールに目を向け続けること:動画Transformerにおける軌道注意

Mandela Patrick Dylan Campbell Yuki M. Asano Ishan Misra Florian Metze Christoph Feichtenhofer Andrea Vedaldi João F. Henriques

概要

動画変換器(video transformers)では、時間次元が通常、2つの空間次元と同じように扱われます。しかし、物体やカメラが移動するシーンでは、時刻tttのフレームにおけるある物理的点が、時刻t+kt+kt+kのフレームにおける同じ位置に存在するものとはまったく無関係である場合があります。このような時間的対応関係を適切にモデル化することが、動的シーンの理解を促進するために重要です。そこで本研究では、動的な動き経路を暗黙的に決定し、その経路に沿って情報を集約する「トラジェクトリーアテンション(trajectory attention)」という新たなドロップイン型ブロックを提案します。さらに、入力サイズに対して計算量およびメモリ使用量が二次関数的に増加する問題を克服するための新しい手法も提案しています。この問題は特に高解像度または長時間の動画処理において極めて重要です。これらのアイデアは多様な設定で有用ですが、特に変換器モデルを用いた動画行動認識というタスクに適用し、Kinetics、Something-Something V2、Epic-Kitchensの各データセットにおいて最先端の性能を達成しました。コードおよびモデルは以下のリンクから公開されています:https://github.com/facebookresearch/Motionformer


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています