HyperAIHyperAI

Command Palette

Search for a command to run...

時系列効率的なVision Transformerによる動画インスタンスセグメンテーション

Shusheng Yang Xinggang Wang Yu Li Yuxin Fang Jiemin Fang Wenyu Liu Xun Zhao Ying Shan

概要

最近、ビジョントランスフォーマー(Vision Transformer)は画像レベルの視覚認識タスクにおいて著しい成功を収めている。動画クリップ内の重要な時間的情報を効果的かつ効率的にモデル化するため、本研究では動画インスタンスセグメンテーション(VIS)向けに「時間的に効率的なビジョントランスフォーマー」(Temporally Efficient Vision Transformer: TeViT)を提案する。従来のトランスフォーマーに基づくVIS手法とは異なり、TeViTはほぼ畳み込みフリーであり、トランスフォーマーのバックボーンとクエリベースの動画インスタンスセグメンテーションヘッドから構成されている。バックボーン段階では、初期の時間的コンテキスト統合を実現する「ほぼパラメータフリーのメッセンジャーシフト機構」を提案する。ヘッド段階では、動画インスタンスとクエリの間に一対一の対応関係を構築するための「パラメータ共有型の空間時間的クエリ相互作用機構」を設計している。これにより、TeViTはフレームレベルおよびインスタンスレベルの両方の時間的コンテキスト情報を十分に活用し、追加の計算コストをほとんど増加させることなく強力な時間モデリング能力を獲得する。YouTube-VIS-2019、YouTube-VIS-2021、OVISの3つの広く用いられているVISベンチマークにおいて、TeViTは最先端の性能を達成しつつ、高い推論速度を維持しており、たとえばYouTube-VIS-2019では46.6 AP、68.9 FPSを達成している。コードは以下のGitHubリポジトリで公開されている:https://github.com/hustvl/TeViT


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています