YOLOV: Verbesserung von Objekterkennung in Videos durch Stillbild-Objekterkennung

Die Video-Objekterkennung (VID) ist aufgrund der hohen Variation des Objekt-Aussehens sowie der vielfältigen Verschlechterungen in einigen Bildern herausfordernd. Positiv ist jedoch, dass die Erkennung in einem bestimmten Frame eines Videos im Vergleich zu einer stehenden Abbildung Unterstützung von anderen Frames beziehen kann. Daher ist es entscheidend, wie Merkmale über verschiedene Frames hinweg aggregiert werden. Die meisten existierenden Aggregationsalgorithmen sind für zweistufige Detektoren angepasst. Diese Detektoren sind jedoch aufgrund ihrer zweistufigen Natur oft rechenintensiv. In dieser Arbeit wird eine einfache, aber effektive Strategie vorgeschlagen, um die oben genannten Bedenken zu adressieren, wobei die zusätzlichen Kosten marginal sind und gleichzeitig erhebliche Genauigkeitsverbesserungen erzielt werden. Konkret unterscheiden wir uns von traditionellen zweistufigen Pipelines dadurch, dass wir nach der einstufigen Detektion wichtige Regionen auswählen, um die Verarbeitung großer Mengen niedriger Qualitätskandidaten zu vermeiden. Zudem bewerten wir das Verhältnis zwischen einem Ziel-Frame und Referenzframes, um die Aggregation zu leiten. Wir führen umfangreiche Experimente und Abstraktionsstudien durch, um die Effizienz unserer Designentscheidungen zu überprüfen und zeigen deren Überlegenheit gegenüber anderen state-of-the-art VID-Ansätzen sowohl in Bezug auf Effektivität als auch Effizienz. Unser YOLOX-basiertes Modell erreicht vielversprechende Leistungsresultate (z.B., 87,5\% AP50 bei mehr als 30 FPS auf dem ImageNet VID-Datensatz mit einer einzelnen 2080Ti-GPU), was es für groß angelegte oder Echtzeit-Anwendungen sehr attraktiv macht. Die Implementierung ist einfach; wir haben Demo-Codes und Modelle unter \url{https://github.com/YuHengsss/YOLOV} zur Verfügung gestellt.请注意,我在翻译中保持了原文的专业性和准确性,同时优化了句子结构以符合德语的表达习惯。此外,我保留了原文中的技术术语(如AP50、FPS、ImageNet VID-Datensatz)并直接翻译了人名和机构名称。希望这能满足您的需求!