軸軌跡に沿ってオブジェクトを追跡する単純なビデオセグメンター

ビデオセグメンテーションは、時間とともに一貫して物体をセグメント化および追跡する必要があります。高解像度の入力特徴量を使用したビデオセグメンテーションに自己注意機構を直接適用すると、入力サイズの2乗依存性により、GPUメモリ容量が不足することがよくあります。そのため、現代のビデオセグメンテーション手法は、時間的な注意を全く組み込まない画像セグメンテーション手法の拡張か、または単純なウィンドウ空間時間注意に頼る傾向があります。本研究では、Axial-VSという一般的でシンプルなフレームワークを提案します。このフレームワークは、軸方向の軌道に沿って物体を追跡することでビデオセグメンテーションを強化します。Axial-VSは、ビデオセグメンテーションを2つのサブタスクに分けて処理します:クリップ内の短期間セグメンテーションとクリップ間の長期追跡です。最初のステップでは、Axial-VSは既存のクリップレベルのビデオセグメンテーション手法に提案された軸方向軌道注意(axial-trajectory attention)を追加し、クリップ内の高さと幅の軌道に沿って順次物体を追跡します。これにより、運動軌道を捉えることで時間的一貫性が向上します。軸方向分解は密集特徴量に対する計算複雑さを大幅に削減し、ウィンドウ空間時間注意よりも高いセグメンテーション品質を達成しています。次のステップでは、クリップレベルのセグメンテーション手法における物体クエリにも軸方向軌道注意を利用します。これらの物体クエリは物体情報を符号化するために学習され、異なるクリップ間での物体追跡を支援し、ビデオ全体での一貫したセグメンテーションを実現します。特別な工夫なしにAxial-VSはビデオセグメンテーションベンチマークで最先端の結果を示しており、現代のクリップレベルビデオセグメンテーション手法の制限に対処する効果性が強調されています。コードとモデルはhttps://github.com/TACJu/Axial-VS から利用可能です。