11日前

最初に検出し、次に追跡する：参照動画オブジェクトセグメンテーションにおける識別と伝播の分離

Cho, Suhwan, Lee, Seunghoon, Lee, Minhyeok, Lee, Jungho, Lee, Sangyoun

要約

参照動画オブジェクトセグメンテーションは、自然言語プロンプトを用いて動画内の対象オブジェクトをセグメンテーションおよび追跡するタスクである。従来の手法は、視覚的特徴とテキスト的特徴を極めて複雑に混合して処理し、マルチモーダル情報を統合的に扱ってフレームごとのマスクを生成するが、複数の類似したオブジェクトが存在するシーンでは対象の識別が曖昧になりやすく、フレーム間でのマスクの一貫性が保てないという課題がある。本研究では、これらの限界を克服するため、ターゲットの識別とマスクの伝播を分離する新しい非結合型フレームワーク「FindTrack」を提案する。FindTrackは、セグメンテーションの信頼度と視覚-テキストの整合性のバランスを考慮して、適応的にキーフレームを選定し、対象オブジェクトに対する堅牢な参照を構築する。その後、この参照を専用の伝播モジュールが活用して、動画全体にわたってオブジェクトの追跡とセグメンテーションを実行する。このプロセスの分離により、ターゲットの対応付けにおける曖昧性が効果的に低減され、セグメンテーションの一貫性が向上する。公開ベンチマーク上での実験により、FindTrackが既存手法を上回る性能を発揮することを示した。