Look Before You Match: Instance Understanding Matters in Video Object Segmentation を翻訳します。 注視してからマッチングを行う:ビデオオブジェクトセグメンテーションにおけるインスタンス理解の重要性

現在のフレームと過去のフレーム間の高密度マッチングを探索し、長期的なコンテクストモデリングを行うことで、メモリベースの手法は最近ビデオオブジェクトセグメンテーション(VOS)において印象的な結果を示しています。しかし、インスタンス理解能力の不足により、これらのアプローチはしばしば物体やカメラの動きによって引き起こされる大きな外観変化や視点変化に対して脆弱です。本論文では、VOSにおけるインスタンス理解が重要であると主張し、これをメモリベースのマッチングと統合することで相乗効果が得られると述べています。これはVOSタスクの定義から直感的に理解できるものであり、つまりビデオ内のオブジェクトインスタンスを識別しセグメンテーションすることです。この目標に向けて、我々は2つのブランチを持つネットワークを提案します。一方はクエリベースのインスタンスセグメンテーション(IS)ブランチで、現在のフレームのインスタンス詳細に深く掘り下げます。もう一方はVOSブランチで、メモリバンクとの空間時系列マッチングを行います。ISブランチから学習された良好なオブジェクトクエリを使用して、クエリキーにインスタンス固有情報を注入し、これによりインスタンス強化型マッチングがさらに実行されます。また、多路融合ブロックを導入して、メモリアウトプットとインスタンスセグメンテーションデコーダからのマルチスケール特徴量を効果的に組み合わせることで、高解像度のインスタンス認識特徴量を取り入れて最終的なセグメンテーション結果を生成します。我々の手法はDAVIS 2016/2017 val(92.6%および87.1%)、DAVIS 2017 test-dev(82.8%)、YouTube-VOS 2018/2019 val(86.3%および86.3%)において最先端の性能を達成しており、他の手法よりも明確な優位性を持っています。