HyperAIHyperAI
vor 17 Tagen

DETRs schlagen YOLOs bei der Echtzeit-Objekterkennung

Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen
DETRs schlagen YOLOs bei der Echtzeit-Objekterkennung
Abstract

Die YOLO-Serie ist aufgrund ihres angemessenen Kompromisses zwischen Geschwindigkeit und Genauigkeit zum beliebtesten Framework für Echtzeit-Objektdetektion geworden. Wir beobachten jedoch, dass sowohl Geschwindigkeit als auch Genauigkeit von YOLO-Modellen negativ durch die NMS beeinträchtigt werden. Kürzlich haben end-to-end-Transformer-basierte Detektoren (DETRs) eine Alternative zur Eliminierung der NMS geboten. Dennoch beschränkt die hohe Rechenkosten ihre praktische Anwendbarkeit und verhindert, dass sie das volle Potenzial der NMS-freien Architektur ausschöpfen können. In diesem Paper stellen wir den Real-Time DEtection TRansformer (RT-DETR) vor, den ersten Echtzeit-end-to-end-Objektdetektor, soweit uns bekannt, der dieses Dilemma löst. Wir entwickeln RT-DETR in zwei Schritten, wobei wir auf den Fortschritten von DETR aufbauen: Zunächst konzentrieren wir uns darauf, die Genauigkeit beizubehalten, während die Geschwindigkeit verbessert wird, gefolgt von der Aufrechterhaltung der Geschwindigkeit bei weiterer Genauigkeitssteigerung. Konkret entwerfen wir einen effizienten hybriden Encoder, der mehrskalige Merkmale durch Entkopplung der intra-skalaren Interaktion und der inter-skalaren Fusion schnell verarbeitet, um die Geschwindigkeit zu erhöhen. Anschließend führen wir eine unsicherheitsminimale Abfrageauswahl ein, um dem Decoder hochwertige Ausgangsabfragen zur Verfügung zu stellen und somit die Genauigkeit zu steigern. Darüber hinaus ermöglicht RT-DETR flexible Geschwindigkeitstuning durch Anpassung der Anzahl der Decoder-Schichten, ohne dass ein erneutes Training erforderlich ist, und passt sich so verschiedenen Anwendungsszenarien an. Unser RT-DETR-R50 / R101 erreicht 53,1 % / 54,3 % AP auf COCO und 108 / 74 FPS auf einer T4-GPU, wobei beide Metriken die bisher fortschrittlichsten YOLO-Modelle in Geschwindigkeit und Genauigkeit übertreffen. Wir haben zudem skalierte Versionen von RT-DETR entwickelt, die die leichteren YOLO-Modelle (S und M) übertrifft. Zudem erreicht RT-DETR-R50 eine Genauigkeit, die um 2,2 % AP über DINO-R50 liegt, und verfügt über eine etwa 21-mal höhere FPS-Rate. Nach Vortrainings mit Objects365 erreichen RT-DETR-R50 / R101 55,3 % / 56,2 % AP. Projektseite: https://zhao-yian.github.io/RTDETR.