17日前
InstanceFormer:オンライン動画インスタンスセグメンテーションフレームワーク
Rajat Koner, Tanveer Hannan, Suprosanna Shit, Sahand Sharifzadeh, Matthias Schubert, Thomas Seidl, Volker Tresp

要約
最近、トランスフォーマーに基づくオフライン動画インスタンスセグメンテーション(VIS)手法は、有望な成果を上げており、オンライン手法を大きく上回っている。しかし、これらは動画全体に依存しており、全時空間的アテンションによって引き起こされる膨大な計算複雑性のため、長時間の動画処理を含む実用的な応用において制限を受ける。本論文では、特に長時間で困難な動画に適した、単段階型の効率的なオンラインVISフレームワーク「InstanceFormer」を提案する。本手法は、短期間および長期間の依存関係、および時間的整合性をモデル化するための3つの新規な構成要素を導入している。第一に、過去のインスタンスの表現、位置、意味情報を伝搬することで、短期間の変化を捉える。第二に、デコーダ内に新規のメモリクロスアテンションを提案し、ネットワークが一定の時間窓内での過去のインスタンスにアクセスできるようにする。第三に、すべてのフレームにわたるインスタンス表現の整合性を強制するため、時間的対比損失(temporal contrastive loss)を導入する。メモリアテンションと時間的整合性は、遮蔽(occlusion)など困難な状況を含む長距離依存関係のモデリングにおいて特に有効である。提案するInstanceFormerは、複数のデータセットにおいて、従来のオンラインベンチマーク手法を大きく上回っている。特に重要的是、YouTube-VIS-2021やOVISといった困難で長時間のデータセットにおいて、オフライン手法をも凌駕している。コードは https://github.com/rajatkoner08/InstanceFormer で公開されている。