2ヶ月前

Tube-Link: 汎用ビデオセグメンテーションのための柔軟なクロスタブフレームワーク

Xiangtai Li; Haobo Yuan; Wenwei Zhang; Guangliang Cheng; Jiangmiao Pang; Chen Change Loy
Tube-Link: 汎用ビデオセグメンテーションのための柔軟なクロスタブフレームワーク
要約

ビデオセグメンテーションは、多様なシナリオにおいて各ピクセルを正確に分割し追跡することを目指しています。本論文では、Tube-Linkという汎用的なフレームワークを提案します。このフレームワークは統一されたアーキテクチャでビデオセグメンテーションの複数の核心タスクに対処します。当社のフレームワークは準オンライン手法であり、短いサブクリップを入力として受け取り、対応する空間時間的なチューブマスクを出力します。クロスチューブ関係のモデリングを強化するために、クエリに沿った注意機構を用いた効果的なチューブレベルリンク方法を提案します。さらに、インスタンスごとの識別特徴量のために時間的コントラスティブ学習を導入し、チューブレベルでの関連付けを行います。当社の手法は、データセットやシナリオの要件に応じて各サブクリップの長さを変更できるため、短いビデオ入力と長いビデオ入力に対して柔軟性と効率性を提供します。Tube-Linkは5つのビデオセグメンテーションデータセットで既存の専門的なアーキテクチャよりも大幅に優れた性能を示しており、特にVIPSegでは強力な基線モデルであるVideo K-Netに対して相対的に約13%の改善、KITTI-STEPでは4%の改善が見られます。ResNet50バックボーンを使用した場合、Youtube-VIS-2019と2021ではそれぞれIDOLが3%と4%向上しました。

Tube-Link: 汎用ビデオセグメンテーションのための柔軟なクロスタブフレームワーク | 最新論文 | HyperAI超神経