HyperAIHyperAI
vor 17 Tagen

YOLO-Former: YOLO greift nach der Hand mit ViT

Javad Khoramdel, Ahmad Moori, Yasamin Borhani, Armin Ghanbarzadeh, Esmaeil Najafi
YOLO-Former: YOLO greift nach der Hand mit ViT
Abstract

Die vorgeschlagene YOLO-Former-Methode integriert nahtlos die Konzepte von Transformer und YOLOv4, um ein hochpräzises und effizientes Objekterkennungssystem zu schaffen. Die Methode nutzt die schnelle Inferenzgeschwindigkeit von YOLOv4 und verbindet diese mit den Vorteilen der Transformer-Architektur durch die Integration von faltenden Aufmerksamkeitsmodulen und Transformer-Blöcken. Die Ergebnisse belegen die Wirksamkeit des vorgeschlagenen Ansatzes: Auf dem Pascal VOC-Datensatz erreicht die Methode eine mittlere Genauigkeit (mAP) von 85,76 %, während gleichzeitig eine hohe Vorhersagegeschwindigkeit mit einer Bildwiederholfrequenz von 10,85 Bildern pro Sekunde beibehalten wird. Der Beitrag dieser Arbeit liegt darin, aufzuzeigen, wie die innovative Kombination dieser beiden state-of-the-art-Techniken zu weiteren Fortschritten im Bereich der Objekterkennung führen kann.