HyperAIHyperAI

Command Palette

Search for a command to run...

最初に検出し、次に追跡する:参照動画オブジェクトセグメンテーションにおける識別と伝播の分離

Cho Suhwan Lee Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun

概要

参照動画オブジェクトセグメンテーションは、自然言語プロンプトを用いて動画内の対象オブジェクトをセグメンテーションおよび追跡するタスクである。従来の手法は、視覚的特徴とテキスト的特徴を極めて複雑に混合して処理し、マルチモーダル情報を統合的に扱ってフレームごとのマスクを生成するが、複数の類似したオブジェクトが存在するシーンでは対象の識別が曖昧になりやすく、フレーム間でのマスクの一貫性が保てないという課題がある。本研究では、これらの限界を克服するため、ターゲットの識別とマスクの伝播を分離する新しい非結合型フレームワーク「FindTrack」を提案する。FindTrackは、セグメンテーションの信頼度と視覚-テキストの整合性のバランスを考慮して、適応的にキーフレームを選定し、対象オブジェクトに対する堅牢な参照を構築する。その後、この参照を専用の伝播モジュールが活用して、動画全体にわたってオブジェクトの追跡とセグメンテーションを実行する。このプロセスの分離により、ターゲットの対応付けにおける曖昧性が効果的に低減され、セグメンテーションの一貫性が向上する。公開ベンチマーク上での実験により、FindTrackが既存手法を上回る性能を発揮することを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています