HyperAIHyperAI

Command Palette

Search for a command to run...

マスク DINO:オブジェクト検出およびセグメンテーションのための統一されたTransformerベースのフレームワークへ向けて

Feng Li Hao Zhang Huaizhe xu Shilong Liu Lei Zhang Lionel M. Ni Heung-Yeung Shum

概要

本論文では、オブジェクト検出とセグメンテーションを統合したフレームワークであるMask DINOを提案する。Mask DINOは、DINO(Improved Denoising Anchor Boxesを備えたDETR)を拡張し、インスタンスセグメンテーション、パノプティックセグメンテーション、セマンティックセグメンテーションのすべての画像セグメンテーションタスクをサポートするマスク予測ブランチを追加している。このアプローチでは、DINOから得られるクエリ埋め込み(query embeddings)を高解像度のピクセル埋め込みマップとドット積(dot-product)することで、一連のバイナリマスクを予測する。DINOの主要な構成要素の多くは、共有アーキテクチャおよびトレーニングプロセスを通じてセグメンテーションタスクに拡張されている。Mask DINOはシンプルで効率的かつスケーラブルであり、検出とセグメンテーションを統合した大規模データセットの活用が可能である。実験の結果、Mask DINOは、ResNet-50バックボーンおよびSwinLバックボーンを用いた事前学習モデルの両方において、既存の専用セグメンテーション手法を大きく上回っている。特に、パラメータ数が10億未満のモデルの中で、インスタンスセグメンテーション(COCOにおける54.5 AP)、パノプティックセグメンテーション(COCOにおける59.4 PQ)、セマンティックセグメンテーション(ADE20Kにおける60.8 mIoU)において、現時点で最も優れた結果を達成している。コードは以下のURLから公開されている:\url{https://github.com/IDEACVR/MaskDINO}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています