D-FINE: Die Regressionsaufgabe in DETRs als feingranulare Verteilungsverfeinerung neu definieren

Wir stellen D-FINE vor, einen leistungsfähigen Echtzeit-Objekterkennungsdetektor, der durch die Neuaufnahme der Bounding-Box-Regressionsaufgabe in DETR-Modellen eine außergewöhnliche Lokalisationsgenauigkeit erreicht. D-FINE besteht aus zwei wesentlichen Komponenten: Feingranularem Verteilungsverfeinerung (FDR) und Globaler Optimaler Lokalisations-Selbstdestillierung (GO-LSD). FDR transformiert den Regressionsprozess von der Vorhersage fester Koordinaten zu einer iterativen Verfeinerung von Wahrscheinlichkeitsverteilungen, wodurch eine feingranuläre Zwischendarstellung bereitgestellt wird, die die Lokalisationsgenauigkeit erheblich verbessert. GO-LSD ist eine bidirektionale Optimierungsstrategie, die durch Selbstdestillierung Lokalisationswissen von verfeinerten Verteilungen auf flachere Schichten überträgt und gleichzeitig die Residuumsvorhersageaufgaben für tiefere Schichten vereinfacht. Darüber hinaus implementiert D-FINE leichtgewichtige Optimierungen in rechenintensiven Modulen und Operationen, um ein besseres Verhältnis zwischen Geschwindigkeit und Genauigkeit zu erreichen. Insbesondere erreichen D-FINE-L / X auf dem COCO-Datensatz bei 124 / 78 FPS auf einem NVIDIA T4-GPU 54,0% / 55,8% AP. Wenn sie auf Objects365 vortrainiert werden, erreichen D-FINE-L / X 57,1% / 59,3% AP und übertreffen damit alle bestehenden Echtzeitdetektoren. Zudem verbessert unsere Methode die Leistung einer breiten Palette von DETR-Modellen um bis zu 5,3% AP mit vernachlässigbaren zusätzlichen Parametern und Trainingskosten. Unser Code und vortrainierte Modelle: https://github.com/Peterande/D-FINE.