6ヶ月前

ビデオ理解

セマンティックセグメンテーション

オブジェクト追跡

コンピュータビジョン

Bowen Cheng Anwesa Choudhuri Ishan Misra Alexander Kirillov Rohit Girdhar Alexander G. Schwing

概要

Mask2Formerは、アーキテクチャや損失関数、さらには学習パイプラインを変更することなく、動画インスタンスセグメンテーションにおいても最先端の性能を達成することがわかりました。本報告では、3次元セグメンテーションボリュームを直接予測することで、汎用的な画像セグメンテーションアーキテクチャが動画セグメンテーションへ容易に拡張可能であることを示します。具体的には、Mask2FormerはYouTubeVIS-2019で60.4 AP、YouTubeVIS-2021で52.6 APという新たな最先端のスコアを達成しました。画像セグメンテーションにおいて高い汎用性を示す点から、Mask2Formerが動画セマンティックセグメンテーションおよびパノプティックセグメンテーションに対しても対応可能であると考えられます。本研究が最先端の動画セグメンテーション研究の普及を促進し、汎用的な画像・動画セグメンテーションアーキテクチャの設計にさらなる注目が集まるよう期待しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ理解

セマンティックセグメンテーション

オブジェクト追跡

コンピュータビジョン

Bowen Cheng Anwesa Choudhuri Ishan Misra Alexander Kirillov Rohit Girdhar Alexander G. Schwing

概要

Mask2Formerは、アーキテクチャや損失関数、さらには学習パイプラインを変更することなく、動画インスタンスセグメンテーションにおいても最先端の性能を達成することがわかりました。本報告では、3次元セグメンテーションボリュームを直接予測することで、汎用的な画像セグメンテーションアーキテクチャが動画セグメンテーションへ容易に拡張可能であることを示します。具体的には、Mask2FormerはYouTubeVIS-2019で60.4 AP、YouTubeVIS-2021で52.6 APという新たな最先端のスコアを達成しました。画像セグメンテーションにおいて高い汎用性を示す点から、Mask2Formerが動画セマンティックセグメンテーションおよびパノプティックセグメンテーションに対しても対応可能であると考えられます。本研究が最先端の動画セグメンテーション研究の普及を促進し、汎用的な画像・動画セグメンテーションアーキテクチャの設計にさらなる注目が集まるよう期待しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています