17日前
CMT-DeepLab:パノプティックセグメンテーションのためのクラスタリングマスク変換器
Qihang Yu, Huiyu Wang, Dahun Kim, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen

要約
我々は、クラスタリングを核としたトランスフォーマーに基づくパノプティックセグメンテーションフレームワーク「Clustering Mask Transformer (CMT-DeepLab)」を提案する。本手法は、従来のセグメンテーションおよび検出タスクで用いられるトランスフォーマーアーキテクチャを再考したものであり、オブジェクトクエリをクラスタ中心と捉え、セグメンテーションへの適用時にピクセルをグループ化する役割を果たす。クラスタリングは、ピクセルを特徴量の類似性に基づいてクラスタに割り当てた後、クラスタ中心およびピクセル特徴量を更新する交互プロセスにより計算される。これらの操作を統合したものが「Clustering Mask Transformer(CMT)レイヤー」であり、より密で最終的なセグメンテーションタスクに整合性の高いクロスアテンションを生成する。CMT-DeepLabは、従来手法に対して4.4%のPQ(Panoptic Quality)向上を達成し、COCO test-devセットにおいて55.7%のPQという新たな最先端性能を実現した。