YOLO-Former: YOLO greift nach der Hand mit ViT

Die vorgeschlagene YOLO-Former-Methode integriert nahtlos die Konzepte von Transformer und YOLOv4, um ein hochpräzises und effizientes Objekterkennungssystem zu schaffen. Die Methode nutzt die schnelle Inferenzgeschwindigkeit von YOLOv4 und verbindet diese mit den Vorteilen der Transformer-Architektur durch die Integration von faltenden Aufmerksamkeitsmodulen und Transformer-Blöcken. Die Ergebnisse belegen die Wirksamkeit des vorgeschlagenen Ansatzes: Auf dem Pascal VOC-Datensatz erreicht die Methode eine mittlere Genauigkeit (mAP) von 85,76 %, während gleichzeitig eine hohe Vorhersagegeschwindigkeit mit einer Bildwiederholfrequenz von 10,85 Bildern pro Sekunde beibehalten wird. Der Beitrag dieser Arbeit liegt darin, aufzuzeigen, wie die innovative Kombination dieser beiden state-of-the-art-Techniken zu weiteren Fortschritten im Bereich der Objekterkennung führen kann.