概要

本論文では、新しいコンピュータビジョンの課題であるビデオインスタンスセグメンテーションを提案します。この新規課題の目的は、ビデオ内のインスタンスの検出、セグメンテーション、追跡を同時に実行することです。具体的には、画像インスタンスセグメンテーション問題が初めてビデオ領域に拡張されたものです。この新規課題に関する研究を促進するため、40カテゴリラベルセットと131,000枚の高品質なインスタンスマスクを含む2,883本の高解像度YouTubeビデオから構成される大規模ベンチマークデータセット「YouTube-VIS」を提案します。さらに、この課題向けに新しいアルゴリズム「MaskTrack R-CNN」を提案します。当社の新方法は、Mask R-CNNに新しい追跡ブランチを導入し、検出、セグメンテーション、追跡の各タスクを同時に共同で実行します。最後に、提案手法といくつかの強力なベースライン手法について新しいデータセット上で評価を行いました。実験結果は明確に提案アルゴリズムの優位性を示し、今後の改善への洞察も提供しています。私たちは、ビデオインスタンスセグメンテーションという課題がビデオ理解に関する研究分野でのコミュニティの活動を刺激すると信じています。

ソースPDF