
要約
インタラクティブビデオオブジェクトセグメンテーション(iVOS)は、ユーザーの操作を用いてビデオ内の対象物体の高品質なセグメンテーションマスクを効率的に取得することを目指しています。これまでの最先端技術では、ユーザー操作と時間的な伝播をそれぞれ処理するために独立した2つのネットワークを使用することが多かったため、推論段階で非効率性が生じていました。本研究では、より効率的な方法でこの困難なiVOSに取り組むために、メモリ集約型ネットワーク(MA-Net)と呼ばれる統一フレームワークを提案します。私たちのMA-Netは、交互作用と伝播の操作を単一のネットワークに統合しており、複数回の交互作用スキーマにおいてiVOSの効率性を大幅に向上させています。さらに重要な点として、私たちはシンプルながら効果的なメモリ集約メカニズムを提案し、前の交互作用ラウンドから得られた有用な知識を記録することで、困難な対象物体の検出における堅牢性を大きく向上させています。DAVIS Challenge 2018ベンチマークの検証セット上で広範な実験を行いました。特に、私たちのMA-Netは特別な調整や工夫なしでJ@60スコア76.1%を達成し、既存の最先端技術を超える2.7%以上の性能向上を示しています。