Command Palette
Search for a command to run...
Group DETR v2:エンコーダデコーダ予学習を活用した強力なオブジェクト検出器
Group DETR v2:エンコーダデコーダ予学習を活用した強力なオブジェクト検出器
概要
我々は、エンコーダー・デコーダー型の事前学習とファインチューニングを組み合わせた強力なオブジェクト検出器を提案する。本手法は「Group DETR v2」と呼ばれ、ViT-Huge(視覚変換器、大規模版)\cite{dosovitskiy2020image} をエンコーダーとして用い、DETRの亜種である DINO \cite{zhang2022dino} と、効率的な DETR 学習手法である Group DETR \cite{chen2022group} を統合して構築されている。学習プロセスは、ImageNet-1K 上で ViT-Huge エンコーダーの自己教師付き事前学習とファインチューニング、次に Object365 上での検出器の事前学習、最後に COCO 上でのファインチューニングという三段階から構成される。Group DETR v2 は COCO test-dev において 64.5 mAP を達成し、https://paperswithcode.com/sota/object-detection-on-coco に掲載された COCO リーダーボードにおいて新たな SOTA(最良の結果)を樹立した。