2ヶ月前
マスク付き注意メカニズムを用いた普遍的な画像セグメンテーションのためのMask Transformer
Bowen Cheng; Ishan Misra; Alexander G. Schwing; Alexander Kirillov; Rohit Girdhar

要約
画像セグメンテーションは、異なる意味を持つピクセルをグループ化することを指し、各意味の選択がタスクを定義します。たとえば、カテゴリやインスタンスの所属などがあります。これらのタスク間で異なるのは意味だけですが、現在の研究では各タスクに特化したアーキテクチャの設計に焦点が当てられています。本稿では、任意の画像セグメンテーションタスク(パノプティック、インスタンス、またはセマンティック)に対応可能な新しいアーキテクチャであるマスク付き注意マスクトランスフォーマー(Mask2Former)を提案します。その主要な構成要素には、予測されたマスク領域内でクロスアテンションを制約することで局所的な特徴を抽出するマスク付き注意が含まれます。このアーキテクチャは、研究労力を少なくとも3倍削減するとともに、4つの人気データセットにおいて最良の特化型アーキテクチャを大幅に上回る性能を示しています。特に注目に値するのは、Mask2Formerがパノプティックセグメンテーション(COCOでの57.8 PQ)、インスタンスセグメンテーション(COCOでの50.1 AP)、およびセマンティックセグメンテーション(ADE20Kでの57.7 mIoU)で新たな最先端の成果を達成していることです。