2ヶ月前
高品質での任意の追跡
Jiawen Zhu; Zhenyu Chen; Zeqi Hao; Shijie Chang; Lu Zhang; Dong Wang; Huchuan Lu; Bin Luo; Jun-Yan He; Jin-Peng Lan; Hanyuan Chen; Chenyang Li

要約
視覚物体追跡は、コンピュータビジョンにおける基本的なビデオタスクです。最近、知覚アルゴリズムの著しい性能向上により、単一/複数物体追跡とボックス/マスクベースの追跡が統合されるようになりました。その中でも、Segment Anything Model (SAM) は多くの注目を集めています。本報告書では、HQTrackという高品質なビデオ内任意の物体追跡フレームワークを提案します。HQTrackは主に、ビデオ多物体セグメンテーション(VMOS)とマスクリファイナ(MR)で構成されています。ビデオの初期フレームで追跡対象となる物体が与えられた場合、VMOSはその物体のマスクを現在のフレームへ伝播させます。この段階でのマスク結果は十分に正確ではなく、VMOSはいくつかのクローズセット・ビデオオブジェクトセグメンテーション (VOS) データセットで学習されているため、複雑な場面や特殊な状況への汎化能力が制限されています。追跡マスクの品質をさらに向上させるために、事前学習されたMRモデルを使用して追跡結果を精緻化します。当方針の有効性を示す強力な証拠として、テスト時のデータ拡張やモデルアンサンブルなどのトリックを使わずに、HQTrackはVisual Object Tracking and Segmentation (VOTS2023) チャレンジで2位となりました。コードとモデルは https://github.com/jiawen-zhu/HQTrack から入手可能です。