17日前

時系列効率的なVision Transformerによる動画インスタンスセグメンテーション

Shusheng Yang, Xinggang Wang, Yu Li, Yuxin Fang, Jiemin Fang, Wenyu Liu, Xun Zhao, Ying Shan

要約

最近、ビジョントランスフォーマー（Vision Transformer）は画像レベルの視覚認識タスクにおいて著しい成功を収めている。動画クリップ内の重要な時間的情報を効果的かつ効率的にモデル化するため、本研究では動画インスタンスセグメンテーション（VIS）向けに「時間的に効率的なビジョントランスフォーマー」（Temporally Efficient Vision Transformer: TeViT）を提案する。従来のトランスフォーマーに基づくVIS手法とは異なり、TeViTはほぼ畳み込みフリーであり、トランスフォーマーのバックボーンとクエリベースの動画インスタンスセグメンテーションヘッドから構成されている。バックボーン段階では、初期の時間的コンテキスト統合を実現する「ほぼパラメータフリーのメッセンジャーシフト機構」を提案する。ヘッド段階では、動画インスタンスとクエリの間に一対一の対応関係を構築するための「パラメータ共有型の空間時間的クエリ相互作用機構」を設計している。これにより、TeViTはフレームレベルおよびインスタンスレベルの両方の時間的コンテキスト情報を十分に活用し、追加の計算コストをほとんど増加させることなく強力な時間モデリング能力を獲得する。YouTube-VIS-2019、YouTube-VIS-2021、OVISの3つの広く用いられているVISベンチマークにおいて、TeViTは最先端の性能を達成しつつ、高い推論速度を維持しており、たとえばYouTube-VIS-2019では46.6 AP、68.9 FPSを達成している。コードは以下のGitHubリポジトリで公開されている：https://github.com/hustvl/TeViT。