HyperAI

Die YOLO-Serienmodelle dominieren im Bereich der Echtzeit-Objekterkennung aufgrund ihrer hervorragenden Genauigkeit und rechnerischen Effizienz. Allerdings sind sowohl die konvolutionellen Architekturen der YOLO11 und früherer Versionen als auch der in YOLOv12 eingeführte flächenbasierte Self-Attention-Mechanismus auf die Aggregation lokaler Informationen und die Modellierung von Paarbeziehungen beschränkt und verfügen nicht über die Fähigkeit, globale, multi-to-multi-Beziehungen höherer Ordnung zu erfassen. Dies begrenzt die Erkennungsleistung in komplexen Szenarien. In diesem Artikel stellen wir YOLOv13, einen präzisen und leichten Objekterkennungsalgorithmus, vor. Um die oben genannten Herausforderungen zu bewältigen, schlagen wir einen Hypergraph-basierten adaptiven Korrelationsverstärkungsmechanismus (HyperACE) vor, der latente Beziehungen höherer Ordnung adaptiv nutzt und die Beschränkung früherer Ansätze überwindet, die lediglich auf der Modellierung von Paarbeziehungen basieren und auf Hypergraph-Computing beruhen. Dadurch wird eine effiziente globale Merkmalsfusion und -verstärkung über verschiedene Positionen und Skalen hinweg erreicht. Anschließend präsentieren wir ein Full-Pipeline Aggregation-and-Distribution-(FullPAD)-Paradigma, das auf HyperACE basiert und eine feinabgestimmte Informationsfluss- und Repräsentationssynergie im gesamten Netzwerk effektiv ermöglicht, indem korrelationsverstärkte Merkmale über die gesamte Pipeline verteilt werden. Schließlich schlagen wir vor, herkömmliche große Kernel-Konvolutionen durch tiefenweise separable Konvolutionen zu ersetzen, und entwerfen eine Reihe von Blöcken, die die Anzahl der Parameter und die rechnerische Komplexität erheblich reduzieren, ohne die Leistung einzubüßen. Wir führen umfangreiche Experimente auf dem weit verbreiteten MS COCO-Benchmark durch, und die Ergebnisse zeigen, dass unsere Methode mit weniger Parametern und FLOPs eine state-of-the-art-Leistung erreicht. Insbesondere verbessert unsere YOLOv13-N die mAP gegenüber YOLO11-N um 3,0 % und gegenüber YOLOv12-N um 1,5 %.

YOLOv13: Echtzeit-Objekterkennung mit hypergraphenverstärkter adaptiver visueller Wahrnehmung

Mengqi Lei Siqi Li Yihong Wu Han Hu You Zhou Xinhu Zheng Guiguang Ding Shaoyi Du Zongze Wu Yue Gao

Abstract

Code-Repositories

KI mit KI entwickeln

Hyper Newsletters

Command Palette

YOLOv13: Echtzeit-Objekterkennung mit hypergraphenverstärkter adaptiver visueller Wahrnehmung

Mengqi Lei Siqi Li Yihong Wu Han Hu You Zhou Xinhu Zheng Guiguang Ding Shaoyi Du Zongze Wu Yue Gao

Abstract

Code-Repositories

KI mit KI entwickeln

Hyper Newsletters