17日前

パノプティック・セグフォーマー:トランスフォーマーを用いたパノプティックセグメンテーションの深化

Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu
パノプティック・セグフォーマー:トランスフォーマーを用いたパノプティックセグメンテーションの深化
要約

パノプティックセグメンテーションは、画像の内容を「モノ(things)」と「ストッフ(stuff)」の2種類に分類する、同時に行われるセマンティックセグメンテーションとインスタンスセグメンテーションの統合手法である。本研究では、トランスフォーマーを活用したパノプティックセグメンテーションの汎用フレームワーク「Panoptic SegFormer」を提案する。本フレームワークは、以下の3つの革新的要素を含む:効率的な深層監視付きマスクデコーダ、クエリの分離戦略、および改良された後処理手法。さらに、マルチスケール特徴を効率的に処理するため、Deformable DETRを採用している。これは、従来のDETRの高速かつ効率的なバージョンである。具体的には、マスクデコーダ内のアテンションモジュールに対して、層ごとの段階的監視を施す。この深層監視戦略により、アテンションモジュールが意味のあるセマンティック領域に迅速に注目できるようになり、性能の向上と同時に、Deformable DETRに比べて必要な学習エポック数を半分に削減することができる。また、クエリの分離戦略により、クエリセットの役割を「モノ」と「ストッフ」の間で明確に分離し、両者の相互干渉を回避している。さらに、分類精度とセグメンテーション品質を統合的に考慮することで、重複するマスクの矛盾を解消する後処理戦略を採用し、追加コストなしに性能を向上させている。本手法は、ベースラインのDETRモデルに対して6.2%のPQ(Panoptic Quality)向上を達成した。Panoptic SegFormerは、COCO test-devデータセットにおいて56.2%のPQを達成し、最先端の性能を示している。また、既存手法と比較して、ゼロショット状況下でもより高いロバスト性を示している。実装コードは、\url{https://github.com/zhiqi-li/Panoptic-SegFormer}にて公開されている。