7日前

マスク DINO:オブジェクト検出およびセグメンテーションのための統一されたTransformerベースのフレームワークへ向けて

Feng Li, Hao Zhang, Huaizhe xu, Shilong Liu, Lei Zhang, Lionel M. Ni, Heung-Yeung Shum
マスク DINO:オブジェクト検出およびセグメンテーションのための統一されたTransformerベースのフレームワークへ向けて
要約

本論文では、オブジェクト検出とセグメンテーションを統合したフレームワークであるMask DINOを提案する。Mask DINOは、DINO(Improved Denoising Anchor Boxesを備えたDETR)を拡張し、インスタンスセグメンテーション、パノプティックセグメンテーション、セマンティックセグメンテーションのすべての画像セグメンテーションタスクをサポートするマスク予測ブランチを追加している。このアプローチでは、DINOから得られるクエリ埋め込み(query embeddings)を高解像度のピクセル埋め込みマップとドット積(dot-product)することで、一連のバイナリマスクを予測する。DINOの主要な構成要素の多くは、共有アーキテクチャおよびトレーニングプロセスを通じてセグメンテーションタスクに拡張されている。Mask DINOはシンプルで効率的かつスケーラブルであり、検出とセグメンテーションを統合した大規模データセットの活用が可能である。実験の結果、Mask DINOは、ResNet-50バックボーンおよびSwinLバックボーンを用いた事前学習モデルの両方において、既存の専用セグメンテーション手法を大きく上回っている。特に、パラメータ数が10億未満のモデルの中で、インスタンスセグメンテーション(COCOにおける54.5 AP)、パノプティックセグメンテーション(COCOにおける59.4 PQ)、セマンティックセグメンテーション(ADE20Kにおける60.8 mIoU)において、現時点で最も優れた結果を達成している。コードは以下のURLから公開されている:\url{https://github.com/IDEACVR/MaskDINO}。

マスク DINO:オブジェクト検出およびセグメンテーションのための統一されたTransformerベースのフレームワークへ向けて | 最新論文 | HyperAI超神経