オブジェクト領域動画トランスフォーマー

近年、動画変換器(video transformers)は動画理解において大きな成功を収めており、従来のCNN(畳み込みニューラルネットワーク)を上回る性能を発揮している。しかし、既存の動画変換器モデルは物体を明示的にモデル化していない。一方で、行動認識において物体は本質的に重要であることが知られている。本研究では、物体中心(object-centric)のアプローチとして、物体表現を直接組み込むブロックを動画変換器層に拡張した「Object-Region Video Transformers(ORViT)」を提案する。本研究の核心的なアイデアは、早期の層から物体中心の表現を統合し、それを変換器層に逐次伝搬させることにより、ネットワーク全体における時空間表現に影響を与えることである。ORViTブロックは、二つの物体レベルのストリームから構成される:外観(appearance)ストリームと動的特性(dynamics)ストリーム。外観ストリームでは、「Object-Region Attention(物体領域注意)」モジュールが、画像パッチと物体領域の間で自己注意(self-attention)を適用する。これにより、視覚的な物体領域が一様なパッチトークンと相互作用し、文脈に応じた物体情報を豊かに補完する。さらに、別個の「Object-Dynamics Module(物体動的特性モジュール)」を用いて物体の運動軌道間の相互作用をモデル化し、二つのストリームを統合する方法を示す。我々のモデルは、4つのタスクと5つのデータセットにおいて評価された。具体的には、SomethingElseにおける構成的および少サンプル行動認識、AVAにおける時空間行動検出、およびSomething-Something V2、Diving48、Epic-Kitchen100における標準的な行動認識タスクである。すべてのタスクとデータセットにおいて、顕著な性能向上を示し、変換器アーキテクチャに物体表現を組み込むことの価値を実証した。コードおよび事前学習済みモデルは、プロジェクトページ(\url{https://roeiherz.github.io/ORViT/})にて公開されている。