16日前

ボックスとマスクの統合:統一された視覚追跡とセグメンテーションのためのマルチオブジェクトフレームワーク

Yuanyou Xu, Zongxin Yang, Yi Yang
要約

視覚的オブジェクト追跡(Visual Object Tracking, VOT)および動画オブジェクトセグメンテーション(Video Object Segmentation, VOS)において、任意のオブジェクトを空間的・時間的に追跡することは一般的な目的である。一部の研究では、追跡とセグメンテーションを統合する試みが行われているが、初期化および予測においてボックスとマスクの両方の互換性が不十分であり、主に単一オブジェクトのシナリオに焦点が当てられている。これらの制約を克服するために、本論文では、統一的な追跡とセグメンテーションを実現するためのマルチオブジェクトマスク・ボックス統合フレームワーク、すなわちMITS(Multi-object Mask-box Integrated framework)を提案する。まず、初期化段階でボックスとマスクの両方を参照可能な統一的識別モジュールを導入し、ボックスから詳細なオブジェクト情報を推定するか、マスクから直接情報を保持する。さらに、高精度なマルチオブジェクトボックス予測を可能にする新しいピンポイントボックス予測器を提案し、ターゲット指向の表現学習を促進する。すべてのターゲットオブジェクトは、エンコーディングから伝搬、デコーディングまで一貫したパイプラインで同時に処理され、VOTおよびVOSの統一的処理を実現する。実験結果から、MITSはVOTおよびVOSのベンチマークにおいて最先端の性能を達成することが示された。特に、GOT-10kテストセットにおいて、従来の最良のVOT手法を約6%上回り、VOSベンチマークにおけるボックス初期化の性能も顕著に向上した。コードは https://github.com/yoxu515/MITS で公開されている。

ボックスとマスクの統合:統一された視覚追跡とセグメンテーションのためのマルチオブジェクトフレームワーク | 最新論文 | HyperAI超神経