
要約
視覚物体追跡において、目標の範囲を推定することは基本的な課題です。一般的に、追跡器はボックス中心的であり、シーン内の目標を定義するために完全にバウンディングボックスに依存しています。実際には、物体はしばしば複雑な形状を持ち、画像軸と一致していないことがあります。このような場合、バウンディングボックスは目標の正確な説明を提供せず、多くの場合背景ピクセルが大部分を占めてしまいます。本研究では、セグメンテーション中心の追跡パイプラインを提案します。このパイプラインは高精度のセグメンテーションマスクを生成するだけでなく、内部的にバウンディングボックスではなくセグメンテーションマスクを使用することで、目標と背景コンテンツとの明確な区別ができるような目標表現をよりよく学習することができます。挑戦的な追跡シナリオで必要な堅牢性を達成するために、出力マスクを作成する際にセグメンテーションデコーダーを条件づけるために使用される個体位置決定部品を提案します。私たちはセグメンテーションマスクからバウンディングボックスを推論し、挑戦的な追跡データセットで追跡器の性能を検証し、LaSOTにおいて成功AUCスコア69.7%という新しい最先端の成果を得ました。ほとんどの追跡データセットにはマスク注釈が含まれていないため、予測されたセグメンテーションマスクの評価には使用できません。代わりに、2つの人気のあるビデオ物体セグメンテーションデータセットで我々のセグメンテーション品質を検証しました。