17日前

VITA：オブジェクトトークン連携を用いた動画インスタンスセグメンテーション

Miran Heo, Sukjun Hwang, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim

要約

我々は、オフライン動画インスタンスセグメンテーション（VIS）のための新しいパラダイムを提案する。この手法の根幹にある仮説は、「明示的なオブジェクト指向情報が、動画全体の文脈理解において強力な手がかりとなる」というものである。これに基づき、既存のTransformerベースの画像インスタンスセグメンテーションモデルをベースに、シンプルな構造を持つVITAを提案する。具体的には、画像オブジェクト検出器を用いて、オブジェクト固有の文脈情報をオブジェクトトークンに抽出・凝縮する。VITAは、時空間バックボーン特徴を用いずに、フレームレベルのオブジェクトトークン同士の関連付けによって動画レベルの理解を実現する。凝縮された情報に基づいてオブジェクト間の関係性を効果的に構築することで、ResNet-50をバックボーンとする設定において、VISベンチマークで最先端の性能を達成した。YouTube-VIS 2019および2021ではそれぞれ49.8 AP、45.7 APを、OVISでは19.6 APを記録した。さらに、バックボーン特徴とは独立したオブジェクトトークンベースの構造を持つため、従来のオフラインVIS手法が探求してこなかったいくつかの実用的な利点を示している。具体的には、一般的なGPUで長時間・高解像度の動画処理が可能であり、画像ドメインで訓練されたフレームレベル検出器を固定（freeze）できる点が挙げられる。コードはGitHubにて公開されている：https://github.com/sukjunhwang/VITA。