17日前

MinVIS:動画学習を不要とする最小限の動画インスタンスセグメンテーションフレームワーク

De-An Huang, Zhiding Yu, Anima Anandkumar
MinVIS:動画学習を不要とする最小限の動画インスタンスセグメンテーションフレームワーク
要約

我々は、動画ベースのアーキテクチャや学習プロセスを一切用いずに、最先端の動画インスタンスセグメンテーション(VIS)性能を達成する最小限のフレームワーク「MinVIS」を提案する。MinVISは、クエリベースの画像インスタンスセグメンテーションモデルのみを訓練することで、難易度の高い「Occluded VIS」データセットにおいて、従来の最良手法よりも10%以上のAP(平均精度)で優れた結果を達成している。MinVISは訓練用動画内のフレームを独立した画像として扱うため、何ら変更を加えずに注釈付きフレームを大幅に低サンプリングすることが可能である。YouTube-VIS 2019/2021データセットにおいて、ラベル付きフレームをたった1%にまで削減しても、完全教師ありの最先端手法と同等またはそれ以上の性能を発揮する。本研究の鍵となる観察は、フレーム内でのオブジェクトインスタンス間を区別できるように学習されたクエリは、時間的に一貫性を持ち、手動で設計されたヒューリスティクスなしにインスタンス追跡に利用可能である、という点である。したがって、MinVISの推論パイプラインは以下の通りである:まず、学習済みのクエリベース画像インスタンスセグメンテーションモデルを動画の各フレームに対して独立して適用する。その後、対応するクエリの二部マッチングにより、セグメンテーション結果を追跡する。この推論プロセスはオンライン形式で実行可能であり、動画全体を一度に処理する必要がない。結果として、MinVISはラベル作成コストとメモリ要件の両方を大幅に削減しつつ、VIS性能を損なわずに実現するという実用的な利点を持つ。コードは以下のURLから公開されている:https://github.com/NVlabs/MinVIS