
ビデオ時代の到来に伴い、ビデオセグメンテーションはマルチメディアコミュニティにおいてますます注目を集めています。半教師付きビデオオブジェクトセグメンテーション(VOS)は、参照フレームのアノテートされたオブジェクトマスクが与えられた場合、ビデオのすべてのターゲットフレームにおけるオブジェクトをセグメンテーションすることを目指しています。既存の多くの手法は、ピクセルレベルでの参照-ターゲット相関を構築し、その後ピクセルレベルでの追跡を行ってターゲットマスクを得ることでこれを達成しようとします。しかし、これらの方法はオブジェクトレベルの手がかりを無視しているため、追跡が摂動に対して脆弱になりやすく、類似したオブジェクト間で区別がつかないことがあります。より堅牢なVOSに向けて、重要な洞察は各特定のオブジェクトの表現とマスクを表現力豊かかつ識別可能なように調整することです。これに基づいて、我々は新しい深層ネットワークを提案します。このネットワークは適応的にオブジェクト表現を構築し、オブジェクトマスクを調整することでより強固なロバスト性を実現します。まず、適応的オブジェクトプロキシ(AOP)集約法を適用してオブジェクト表現を構築します。ここで、プロキシは多段階で任意形状のセグメントを表す参照用のものとなります。次に、AOPに基づく参照-ターゲット相関から初期的なプロトタイプマスクが生成されます。その後、このようなプロトマスクはネットワークモデレーションを通じてさらに調整され、オブジェクトプロキシ表現に基づいて条件付けられます。我々はこの条件付きマスク調整プロセスを逐次的に統合し、その過程でオブジェクト表現とプロトマスクが反復的に識別可能になるように進化させます。標準的なVOSベンチマークであるYouTube-VOS-18/19およびDAVIS-17において広範な実験を行いました。我々のモデルは既存の公開研究の中で最先端の性能を達成しており、摂動に対する優れたロバスト性も示しています。プロジェクトリポジトリは以下のURLで公開されています: https://github.com/JerryX1110/Robust-Video-Object-Segmentation