
要約
現代的なアプローチは、通常、セマンティックセグメンテーションをピクセル単位の分類タスクとして定式化する一方で、インスタンスレベルのセグメンテーションは別途マスク分類によって処理する。本研究の核心的な洞察は、マスク分類という手法が、同一のモデル、損失関数、および学習手順を用いて、セマンティックおよびインスタンスレベルのセグメンテーションの両方を統一的に解決可能であるということである。この観察に基づき、本研究ではマスクフォーマー(MaskFormer)を提案する。これは、各マスクが一つのグローバルなクラスラベルに紐づく二値マスクの集合を予測するシンプルなマスク分類モデルである。総合的にみて、本研究で提唱するマスク分類に基づくアプローチは、セマンティックおよびパノプティックセグメンテーションの有効な手法の枠組みを単純化し、優れた実験的結果を示している。特に、クラス数が多い状況において、マスク分類ベースの手法がピクセル単位分類ベースラインを上回ることを確認した。本手法は、現在の最先端のセマンティックセグメンテーションモデル(ADE20Kで55.6 mIoU)およびパノプティックセグメンテーションモデル(COCOで52.7 PQ)の両方を上回る性能を達成している。