循環的関係的一貫性を用いた堅牢な参照動画オブジェクトセグメンテーション

参照動画オブジェクトセグメンテーション(Referring Video Object Segmentation: R-VOS)は、言語表現に基づいて動画内の特定オブジェクトをセグメンテーションするという困難なタスクである。既存の多数のR-VOS手法は、重要な前提条件を仮定している:参照されるオブジェクトは動画内に存在しなければならない。この前提を、本研究では「意味的一貫性(semantic consensus)」と呼ぶ。しかし、現実世界の場面では、この仮定が頻繁に破られることがあり、例えば誤った動画に対して言語表現が照会されるような状況が生じる。本研究では、意味的不一致に対応できる堅牢なR-VOSモデルの必要性を強調する。それに基づき、非ペアな動画-テキスト入力を受け入れ可能な拡張タスク「堅牢R-VOS(Robust R-VOS)」を提案する。この問題に対処するために、主なR-VOSタスクとその双対問題(テキスト再構成)を統合的にモデリングするアプローチを採用する。さらに、構造的テキスト-テキストサイクル制約を導入し、動画-テキストペア間の意味的一貫性を識別し、ポジティブペアにおいてそれを強制することで、ポジティブおよびネガティブペアの両方からマルチモーダルな整合性を実現する。この構造的制約は、言語の多様性に起因する課題を効果的に克服し、従来の点対点制約に依存する手法の限界を乗り越える。モデルの堅牢性を測定するため、新たな評価データセット「R²-Youtube-VOS」を構築した。本研究のモデルは、R-VOSのベンチマークであるRef-DAVIS17およびRef-Youtube-VOSにおいて、既存手法を上回る最先端の性能を達成するとともに、提案したR²-Youtube-VOSデータセットでも優れた結果を示した。