HyperAIHyperAI

Command Palette

Search for a command to run...

ロバストなオンライン動画インスタンスセグメンテーションにおけるトラッククエリ

Zitong Zhan Daniel McKee Svetlana Lazebnik

概要

最近、Transformerを基盤とする手法は、動画インスタンスセグメンテーション(VIS)において優れた成果を上げている。しかし、これらの高性能な手法の多くは、動画全体を一度に処理してインスタンスマスクの時系列体積を予測するオフライン方式で動作しており、UVOやOVISといった新しい挑戦的なVISデータセットに見られる長時間動画に対応できない。本研究では、YouTube-VIS 2019ベンチマークにおいてトップクラスのオフライン手法と同等の性能を発揮するとともに、UVOおよびOVISでは著しく優れた結果を達成する、完全なオンライン型Transformerベースの動画インスタンスセグメンテーションモデルを提案する。この手法は「ロバスト・オンライン・ビデオセグメンテーション(ROVIS)」と名付けられ、Mask2Formerという画像インスタンスセグメンテーションモデルに、TrackFormer手法が多対象追跡のために導入した「トラッククエリ(track queries)」という軽量なトラッキング情報伝達機構を組み合わせている。本研究では、十分に強力な画像セグメンテーションアーキテクチャと組み合わせることで、トラッククエリが短時間動画に制限されることなく、優れた精度を発揮できることを示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ロバストなオンライン動画インスタンスセグメンテーションにおけるトラッククエリ | 記事 | HyperAI超神経