HyperAIHyperAI

Command Palette

Search for a command to run...

トランスフォーマーを用いたエンドツーエンド型ビデオインスタンスセグメンテーション

Yuqing Wang Zhaoliang Xu Xinlong Wang Chunhua Shen Baoshan Cheng Hao Shen Huaxia Xia

概要

ビデオインスタンスセグメンテーション(VIS)とは、動画内の対象オブジェクトのインスタンスを同時に分類・セグメンテーション・トラッキングするタスクである。近年の手法は、このタスクに対処するために複雑なパイプラインを構築している。本研究では、Transformerを基盤とした新たなビデオインスタンスセグメンテーションフレームワーク「VisTR」を提案する。VisTRは、VISタスクを直接的なエンドツーエンドの並列シーケンスデコード/予測問題として捉える。複数の画像フレームからなる動画クリップを入力として与えると、VisTRは動画内の各インスタンスに対応するマスクのシーケンスを直接、順番に出力する。本フレームワークの核となるのは、新しい効果的なインスタンスシーケンスマッチングおよびセグメンテーション戦略であり、インスタンスをシーケンス全体として統合的に監視・セグメンテーションする。VisTRは、インスタンスセグメンテーションとトラッキングを同一の類似度学習の視点から捉えるため、全体のパイプラインを大幅に簡素化しており、従来のアプローチとは顕著に異なる。装飾的な要素を一切用いずに、VisTRは既存のすべてのVISモデルの中で最高の処理速度を達成し、YouTube-VISデータセットにおいて単一モデルを用いた手法の中で最高の性能を記録した。本研究では、Transformerを基盤とした、はるかにシンプルかつ高速なビデオインスタンスセグメンテーションフレームワークを初めて実現し、競争力のある精度を達成した。今後、VisTRがより多くのビデオ理解タスクにおける研究を促進することを期待している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています