MaskConver:パノプティックセグメンテーションのための純粋な畳み込みモデルの再検討

近年、Transformerベースのモデルは、セマンティッククラスとインスタンスクラスを統一的なグローバルバイナリマスクとして表現できる強力なモデリング能力により、パノプティックセグメンテーションの分野を支配してきている。本論文では、純粋な畳み込みモデルの再評価に取り組み、物体(things)と背景(stuff)の表現を完全に統一する新しいパノプティックアーキテクチャ「MaskConver」を提案する。MaskConverは、物体と背景の中心を予測することで、両者の表現を完全に統一するアプローチを採用している。この目的のため、同一位置に複数の中心が存在する場合でも適切に処理できる軽量なクラス埋め込みモジュールを設計した。さらに、本研究ではデコーダの設計が、モデルが正確な検出とセグメンテーションを行うために十分な文脈情報を保持する上で極めて重要であることを示した。そこで、強力なConvNeXt-UNet構造を採用したデコーダを導入し、畳み込みモデルとTransformerベースモデルの性能差を解消した。ResNet50をバックボーンとして用いた場合、MaskConverはCOCOパノプティック検証セットにおいて53.6%のPQを達成し、現代的な畳み込みベースモデルであるPanoptic FCNを9.3%上回るとともに、Mask2Former(+1.7% PQ)、kMaX-DeepLab(+0.6% PQ)といったTransformerベースモデルに対しても優れた性能を発揮した。また、MobileNetをバックボーンとして用いた場合、同じFLOPs/レイテンシ制約下でPanoptic-DeepLabを+6.4%上回る37.2%のPQを達成した。さらに最適化されたバージョンのMaskConverは、モバイルデバイス上でリアルタイム(29.7% PQ)で動作可能である。本研究のコードおよびモデル重みは、公開予定である。