17日前

Mask2Former による動画インスタンスセグメンテーション

Bowen Cheng, Anwesa Choudhuri, Ishan Misra, Alexander Kirillov, Rohit Girdhar, Alexander G. Schwing
Mask2Former による動画インスタンスセグメンテーション
要約

Mask2Formerは、アーキテクチャや損失関数、さらには学習パイプラインを変更することなく、動画インスタンスセグメンテーションにおいても最先端の性能を達成することがわかりました。本報告では、3次元セグメンテーションボリュームを直接予測することで、汎用的な画像セグメンテーションアーキテクチャが動画セグメンテーションへ容易に拡張可能であることを示します。具体的には、Mask2FormerはYouTubeVIS-2019で60.4 AP、YouTubeVIS-2021で52.6 APという新たな最先端のスコアを達成しました。画像セグメンテーションにおいて高い汎用性を示す点から、Mask2Formerが動画セマンティックセグメンテーションおよびパノプティックセグメンテーションに対しても対応可能であると考えられます。本研究が最先端の動画セグメンテーション研究の普及を促進し、汎用的な画像・動画セグメンテーションアーキテクチャの設計にさらなる注目が集まるよう期待しています。

Mask2Former による動画インスタンスセグメンテーション | 最新論文 | HyperAI超神経