17日前
DINO:エンドツーエンド物体検出のための改善されたノイズ除去アンカーボックスを備えたDETR
Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum

要約
本稿では、DINO(\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r boxes)と呼ばれる最先端のエンドツーエンド型物体検出モデルを提案する。DINOは、ノイズ除去学習にコントラスト学習方式を採用し、アノテーション初期化に混合クエリ選択法を導入し、ボックス予測に「前向き2回」スキームを適用することで、従来のDETR系モデルと比べて性能と効率の両面で向上を実現した。ResNet-50をバックボーンとし、マルチスケール特徴を用いた設定において、COCOデータセット上で12エポックで49.4AP、24エポックで51.3APを達成し、以前の最良モデルであるDN-DETRと比較してそれぞれ\textbf{+6.0}APおよび\textbf{+2.7}APの顕著な向上を示した。DINOはモデルサイズおよびデータ量のスケーリングにおいても良好な性能を発揮する。スパイスを加えず、SwinLバックボーンを用いてObjects365データセットで事前学習を行った後、COCO \texttt{val2017}(\textbf{63.2}AP)および\texttt{test-dev}(\textbf{63.3}AP)の両方で、リーダーボード上での最高スコアを達成した。他のモデルと比較して、DINOはより小さなモデルサイズとより少ない事前学習データ量で優れた結果を実現した。本研究のコードは、\url{https://github.com/IDEACVR/DINO}にて公開される予定である。