2ヶ月前
SSTVOS: 稀疏時空トランスフォーマーによる動画オブジェクトセグメンテーション
Brendan Duke; Abdalla Ahmed; Christian Wolf; Parham Aarabi; Graham W. Taylor

要約
本論文では、ビデオオブジェクトセグメンテーション(VOS)に向けたTransformerベースの手法を紹介します。従来の研究における累積誤差とスケーラビリティの問題に対処するため、スケーラブルでエンドツーエンドのVOS手法であるSparse Spatiotemporal Transformers (SST) を提案します。SSTは、時空間特徴に対する疎な注意を使用して、ビデオ内の各オブジェクトに対してピクセルごとの表現を抽出します。我々が提案するVOSの注意に基づく定式化は、モデルが複数フレームの履歴に注意を向けることを学習させることができ、運動セグメンテーションを解くために必要な対応関係のような計算を行うための適切な帰納的バイアスを提供します。我々は、時空間領域において再帰ネットワークよりも注意に基づく手法の方が効果的であることを示しています。本手法はYouTube-VOSおよびDAVIS 2017において競争力のある結果を達成しており、最新技術と比較してスケーラビリティと被遮断へのロバスト性が向上しています。コードはhttps://github.com/dukebw/SSTVOS で利用可能です。