FishEye8K: Ein Benchmark und Datensatz für die Objekterkennung mit Fisheye-Kameras

Mit dem Fortschritt der Künstlichen Intelligenz (KI) ist die Erkennung von Objekten auf Straßen ein zentrales Thema in der Computer Vision, wobei überwiegend perspektivische Kameras eingesetzt werden. Weitwinkelobjektive mit Fisheye-Optik ermöglichen eine omnidirektionale, breitflächige Überwachung mit weniger Kameras, insbesondere bei der Beobachtung von Kreuzungen, weisen jedoch starke Verzerrungen im Sichtfeld auf. Sofern uns bekannt ist, existiert bisher kein öffentlich verfügbares Datenset, das speziell für die Verkehrsüberwachung mittels Fisheye-Kameras konzipiert wurde. In diesem Beitrag stellen wir ein offenes Benchmark-Datenset namens FishEye8K vor, das für Aufgaben der Objekterkennung auf Straßen entwickelt wurde. Das Datenset umfasst insgesamt 157.000 Bounding Boxes über fünf Klassen (Fußgänger, Fahrrad, Auto, Bus und LKW). Zudem präsentieren wir Benchmark-Ergebnisse von State-of-the-Art (SoTA)-Modellen, darunter Varianten von YOLOv5, YOLOR, YOLO7 und YOLOv8. Das Datenset besteht aus 8.000 Bildern, die in 22 Videosequenzen mit 18 Fisheye-Kameras in Hsinchu, Taiwan, aufgenommen wurden, und besitzt Auflösungen von 1080×1080 und 1280×1280. Die Annotation und Validierung der Daten war aufgrund der extrem weiten, panoramischen und halbkugeligen Fisheye-Bilder mit erheblichen Verzerrungen sowie der großen Anzahl an Straßenbenutzern – insbesondere Mopedfahrern – besonders anspruchsvoll und zeitaufwendig. Um Verzerrungen (Bias) zu vermeiden, wurden Frames einer bestimmten Kamera entweder ausschließlich in die Trainings- oder Testmengen eingeteilt, wobei sowohl die Anzahl der Bilder als auch der Bounding Boxes in jeder Klasse ein Verhältnis von etwa 70:30 aufwies. Experimentelle Ergebnisse zeigen, dass YOLOv8 bei einer Eingabegröße von 640×640 und YOLOR bei 1280×1280 die besten Leistungen erzielt. Das Datenset wird auf GitHub mit Annotationen im PASCAL VOC-, MS COCO- und YOLO-Format veröffentlicht. Der FishEye8K-Benchmark wird bedeutende Beiträge zur Analyse von Fisheye-Videos und Anwendungen in intelligenten Städten leisten.