HyperAIHyperAI
vor 17 Tagen

Group DETR v2: Starker Objektdetektor mit Encoder-Decoder-Vortrainierung

Qiang Chen, Jian Wang, Chuchu Han, Shan Zhang, Zexian Li, Xiaokang Chen, Jiahui Chen, Xiaodi Wang, Shuming Han, Gang Zhang, Haocheng Feng, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang
Group DETR v2: Starker Objektdetektor mit Encoder-Decoder-Vortrainierung
Abstract

Wir präsentieren einen leistungsstarken Objektdetektor, der auf einer Encoder-Decoder-Vorstufe und Feinabstimmung basiert. Unsere Methode, Group DETR v2 genannt, baut auf einem Vision Transformer-Encoder ViT-Huge~\cite{dosovitskiy2020image}, einer DETR-Variante namens DINO~\cite{zhang2022dino} sowie einer effizienten DETR-Trainingsmethode namens Group DETR~\cite{chen2022group} auf. Der Trainingsprozess umfasst eine selbstüberwachte Vorstufe und Feinabstimmung des ViT-Huge-Encoders auf ImageNet-1K, eine Vorstufe des Detektors auf Object365 sowie schließlich eine Feinabstimmung auf COCO. Group DETR v2 erreicht eine mAP von $\textbf{64,5}$ auf dem COCO test-dev und etabliert eine neue State-of-the-Art-Leistung auf der COCO-Rangliste: https://paperswithcode.com/sota/object-detection-on-coco