6ヶ月前

概要

本論文では、オブジェクト検出とセグメンテーションを統合したフレームワークであるMask DINOを提案する。Mask DINOは、DINO（Improved Denoising Anchor Boxesを備えたDETR）を拡張し、インスタンスセグメンテーション、パノプティックセグメンテーション、セマンティックセグメンテーションのすべての画像セグメンテーションタスクをサポートするマスク予測ブランチを追加している。このアプローチでは、DINOから得られるクエリ埋め込み（query embeddings）を高解像度のピクセル埋め込みマップとドット積（dot-product）することで、一連のバイナリマスクを予測する。DINOの主要な構成要素の多くは、共有アーキテクチャおよびトレーニングプロセスを通じてセグメンテーションタスクに拡張されている。Mask DINOはシンプルで効率的かつスケーラブルであり、検出とセグメンテーションを統合した大規模データセットの活用が可能である。実験の結果、Mask DINOは、ResNet-50バックボーンおよびSwinLバックボーンを用いた事前学習モデルの両方において、既存の専用セグメンテーション手法を大きく上回っている。特に、パラメータ数が10億未満のモデルの中で、インスタンスセグメンテーション（COCOにおける54.5 AP）、パノプティックセグメンテーション（COCOにおける59.4 PQ）、セマンティックセグメンテーション（ADE20Kにおける60.8 mIoU）において、現時点で最も優れた結果を達成している。コードは以下のURLから公開されている：\url{https://github.com/IDEACVR/MaskDINO}。

ソースPDF