11日前

教師なし動画オブジェクトセグメンテーションのためのディープトランスポートネットワーク

{Bo Liu, Qingshan Liu, Dong Liu, Zicheng Zhao, Kaihua Zhang}
教師なし動画オブジェクトセグメンテーションのためのディープトランスポートネットワーク
要約

一般的な教師なし動画オブジェクトセグメンテーション手法は、RGBフレームと光流を二ストリームネットワークを用いて統合するが、各入力モダリティに含まれるノイズがモデル性能を著しく低下させる可能性がある。本研究では、最適構造マッチングを用いて入力モダリティ間の対応関係を確立しつつ、不要な信号を抑制する手法を提案する。動画フレームを入力として、RGB画像と光流から密な局所特徴を抽出し、これらを二つの複雑な構造的表現とみなす。その後、Wasserstein距離を用いて、一方のモダリティの特徴を他方へ移動させるグローバル最適なフローを計算する。各フローの大きさは、二つの局所特徴間の整合度を測定する指標となる。二ストリームネットワークに構造マッチングを統合し、エンドツーエンド学習を可能にするために、入力コスト行列を小さな空間ブロックに分解し、長距離と短距離のSinkhorn層を組み合わせた微分可能な長短距離Sinkhornモジュールを設計した。このモジュールを専用の二ストリームネットワークに統合し、モデルをTransportNetと命名した。実験の結果、運動情報と外観情報の整合が、代表的な動画オブジェクトセグメンテーションデータセットにおいて最先端の性能を達成することを示した。

教師なし動画オブジェクトセグメンテーションのためのディープトランスポートネットワーク | 最新論文 | HyperAI超神経