17日前

Group DETR v2:エンコーダデコーダ予学習を活用した強力なオブジェクト検出器

Qiang Chen, Jian Wang, Chuchu Han, Shan Zhang, Zexian Li, Xiaokang Chen, Jiahui Chen, Xiaodi Wang, Shuming Han, Gang Zhang, Haocheng Feng, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang
Group DETR v2:エンコーダデコーダ予学習を活用した強力なオブジェクト検出器
要約

我々は、エンコーダー・デコーダー型の事前学習とファインチューニングを組み合わせた強力なオブジェクト検出器を提案する。本手法は「Group DETR v2」と呼ばれ、ViT-Huge(視覚変換器、大規模版)\cite{dosovitskiy2020image} をエンコーダーとして用い、DETRの亜種である DINO \cite{zhang2022dino} と、効率的な DETR 学習手法である Group DETR \cite{chen2022group} を統合して構築されている。学習プロセスは、ImageNet-1K 上で ViT-Huge エンコーダーの自己教師付き事前学習とファインチューニング、次に Object365 上での検出器の事前学習、最後に COCO 上でのファインチューニングという三段階から構成される。Group DETR v2 は COCO test-dev において $\textbf{64.5}$ mAP を達成し、https://paperswithcode.com/sota/object-detection-on-coco に掲載された COCO リーダーボードにおいて新たな SOTA(最良の結果)を樹立した。