概要

我々は、エンコーダー・デコーダー型の事前学習とファインチューニングを組み合わせた強力なオブジェクト検出器を提案する。本手法は「Group DETR v2」と呼ばれ、ViT-Huge（視覚変換器、大規模版）\cite{dosovitskiy2020image} をエンコーダーとして用い、DETRの亜種である DINO \cite{zhang2022dino} と、効率的な DETR 学習手法である Group DETR \cite{chen2022group} を統合して構築されている。学習プロセスは、ImageNet-1K 上で ViT-Huge エンコーダーの自己教師付き事前学習とファインチューニング、次に Object365 上での検出器の事前学習、最後に COCO 上でのファインチューニングという三段階から構成される。Group DETR v2 は COCO test-dev において $\textbf{64.5}$ mAP を達成し、https://paperswithcode.com/sota/object-detection-on-coco に掲載された COCO リーダーボードにおいて新たな SOTA（最良の結果）を樹立した。

ソースPDF