Group DETR v2: Starker Objektdetektor mit Encoder-Decoder-Vortrainierung

Wir präsentieren einen leistungsstarken Objektdetektor, der auf einer Encoder-Decoder-Vorstufe und Feinabstimmung basiert. Unsere Methode, Group DETR v2 genannt, baut auf einem Vision Transformer-Encoder ViT-Huge~\cite{dosovitskiy2020image}, einer DETR-Variante namens DINO~\cite{zhang2022dino} sowie einer effizienten DETR-Trainingsmethode namens Group DETR~\cite{chen2022group} auf. Der Trainingsprozess umfasst eine selbstüberwachte Vorstufe und Feinabstimmung des ViT-Huge-Encoders auf ImageNet-1K, eine Vorstufe des Detektors auf Object365 sowie schließlich eine Feinabstimmung auf COCO. Group DETR v2 erreicht eine mAP von $\textbf{64,5}$ auf dem COCO test-dev und etabliert eine neue State-of-the-Art-Leistung auf der COCO-Rangliste: https://paperswithcode.com/sota/object-detection-on-coco