11日前
スペクトル誘導型マルチグレイン参照動画オブジェクトセグメンテーション
Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian

要約
現在の参照動画オブジェクトセグメンテーション(R-VOS)技術は、符号化済み(低解像度)の視覚言語特徴から条件付きカーネルを抽出し、復号された高解像度特徴に対してセグメンテーションを実行している。本研究では、このアプローチが顕著な特徴ドリフトを引き起こすことを発見した。このドリフトにより、前向き計算中にセグメンテーションカーネルが特徴の変化を適切に捉えることが困難となり、結果としてセグメンテーション性能が低下する。このドリフト問題に対処するため、本研究では「スペクトル誘導型マルチスケール(SgMg)」アプローチを提案する。この手法は、符号化された特徴に対して直接セグメンテーションを実行し、視覚的な詳細情報を活用してマスクをさらに最適化する。さらに、フレーム内でのグローバルな相互作用をスペクトル領域で効果的に行うため、「スペクトル誘導型クロスモーダル融合(SCF)」を提案する。これにより、マルチモーダル表現の質が向上する。最終的に、SgMgを拡張し、複数オブジェクトを同時に処理可能な新しいパラダイムであるマルチオブジェクトR-VOSを実現した。このアプローチはR-VOSの処理速度を向上させるとともに、実用性も大幅に高める。広範な実験結果から、SgMgは4つの動画ベンチマークデータセットにおいて最先端の性能を達成し、Ref-YouTube-VOSにおいて最も近い競合手法よりも2.8%ポイント優れていることが確認された。拡張版SgMgはマルチオブジェクトR-VOSを実現し、処理速度が約3倍速化される一方で、十分な性能を維持している。コードは https://github.com/bo-miao/SgMg にて公開されている。