2ヶ月前

エンドツーエンドの時空間アクション局所化におけるビデオトランスフォーマーの利用

Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab
エンドツーエンドの時空間アクション局所化におけるビデオトランスフォーマーの利用
要約

最も高性能な空間時間的な行動局在化モデルは、外部の人物提案と複雑な外部メモリバンクを使用しています。本研究では、入力ビデオを直接取り込み、各フレームにおけるバウンディングボックスのシーケンスと行動クラス(tubelets)を出力する、完全エンドツーエンドかつ純粋にトランスフォーマーに基づいたモデルを提案します。当モデルは柔軟であり、個々のフレームに対する疎なバウンディングボックスの監督情報や、完全なtubeletsアノテーションで訓練することができます。どちらの場合でも、一貫したtubeletsを予測出力します。さらに、当エンドツーエンドモデルは提案の形での前処理や非最大値抑制の形での後処理を必要としません。我々は広範な削減実験を行い、疎なキーフレームと完全なtubeletsアノテーションを使用した4つの異なる空間時間的な行動局在化ベンチマークにおいて、従来の最先端結果を大幅に向上させました。注:「tubelets」は一般的には日本語で「チューブレット」と訳されることが多いですが、「一連のバウンディングボックス」や「行動シーケンス」などと解説的に表現することも可能です。ただし、専門的な文脈ではそのまま「tubelets」を使用し、必要に応じて括弧内に解説を加えるのが適切です。