17日前

トランスフォーマーを用いたエンドツーエンド型ビデオインスタンスセグメンテーション

Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia

要約

ビデオインスタンスセグメンテーション（VIS）とは、動画内の対象オブジェクトのインスタンスを同時に分類・セグメンテーション・トラッキングするタスクである。近年の手法は、このタスクに対処するために複雑なパイプラインを構築している。本研究では、Transformerを基盤とした新たなビデオインスタンスセグメンテーションフレームワーク「VisTR」を提案する。VisTRは、VISタスクを直接的なエンドツーエンドの並列シーケンスデコード／予測問題として捉える。複数の画像フレームからなる動画クリップを入力として与えると、VisTRは動画内の各インスタンスに対応するマスクのシーケンスを直接、順番に出力する。本フレームワークの核となるのは、新しい効果的なインスタンスシーケンスマッチングおよびセグメンテーション戦略であり、インスタンスをシーケンス全体として統合的に監視・セグメンテーションする。VisTRは、インスタンスセグメンテーションとトラッキングを同一の類似度学習の視点から捉えるため、全体のパイプラインを大幅に簡素化しており、従来のアプローチとは顕著に異なる。装飾的な要素を一切用いずに、VisTRは既存のすべてのVISモデルの中で最高の処理速度を達成し、YouTube-VISデータセットにおいて単一モデルを用いた手法の中で最高の性能を記録した。本研究では、Transformerを基盤とした、はるかにシンプルかつ高速なビデオインスタンスセグメンテーションフレームワークを初めて実現し、競争力のある精度を達成した。今後、VisTRがより多くのビデオ理解タスクにおける研究を促進することを期待している。