HyperAIHyperAI

Command Palette

Search for a command to run...

VITA:オブジェクトトークン連携を用いた動画インスタンスセグメンテーション

Miran Heo Sukjun Hwang Seoung Wug Oh Joon-Young Lee Seon Joo Kim

概要

我々は、オフライン動画インスタンスセグメンテーション(VIS)のための新しいパラダイムを提案する。この手法の根幹にある仮説は、「明示的なオブジェクト指向情報が、動画全体の文脈理解において強力な手がかりとなる」というものである。これに基づき、既存のTransformerベースの画像インスタンスセグメンテーションモデルをベースに、シンプルな構造を持つVITAを提案する。具体的には、画像オブジェクト検出器を用いて、オブジェクト固有の文脈情報をオブジェクトトークンに抽出・凝縮する。VITAは、時空間バックボーン特徴を用いずに、フレームレベルのオブジェクトトークン同士の関連付けによって動画レベルの理解を実現する。凝縮された情報に基づいてオブジェクト間の関係性を効果的に構築することで、ResNet-50をバックボーンとする設定において、VISベンチマークで最先端の性能を達成した。YouTube-VIS 2019および2021ではそれぞれ49.8 AP、45.7 APを、OVISでは19.6 APを記録した。さらに、バックボーン特徴とは独立したオブジェクトトークンベースの構造を持つため、従来のオフラインVIS手法が探求してこなかったいくつかの実用的な利点を示している。具体的には、一般的なGPUで長時間・高解像度の動画処理が可能であり、画像ドメインで訓練されたフレームレベル検出器を固定(freeze)できる点が挙げられる。コードはGitHubにて公開されている:https://github.com/sukjunhwang/VITA


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています