HyperAIHyperAI

Command Palette

Search for a command to run...

YOLOV: Verbesserung von Objekterkennung in Videos durch Stillbild-Objekterkennung

Yuheng Shi Naiyan Wang Xiaojie Guo

Zusammenfassung

Die Video-Objekterkennung (VID) ist aufgrund der hohen Variation des Objekt-Aussehens sowie der vielfältigen Verschlechterungen in einigen Bildern herausfordernd. Positiv ist jedoch, dass die Erkennung in einem bestimmten Frame eines Videos im Vergleich zu einer stehenden Abbildung Unterstützung von anderen Frames beziehen kann. Daher ist es entscheidend, wie Merkmale über verschiedene Frames hinweg aggregiert werden. Die meisten existierenden Aggregationsalgorithmen sind für zweistufige Detektoren angepasst. Diese Detektoren sind jedoch aufgrund ihrer zweistufigen Natur oft rechenintensiv. In dieser Arbeit wird eine einfache, aber effektive Strategie vorgeschlagen, um die oben genannten Bedenken zu adressieren, wobei die zusätzlichen Kosten marginal sind und gleichzeitig erhebliche Genauigkeitsverbesserungen erzielt werden. Konkret unterscheiden wir uns von traditionellen zweistufigen Pipelines dadurch, dass wir nach der einstufigen Detektion wichtige Regionen auswählen, um die Verarbeitung großer Mengen niedriger Qualitätskandidaten zu vermeiden. Zudem bewerten wir das Verhältnis zwischen einem Ziel-Frame und Referenzframes, um die Aggregation zu leiten. Wir führen umfangreiche Experimente und Abstraktionsstudien durch, um die Effizienz unserer Designentscheidungen zu überprüfen und zeigen deren Überlegenheit gegenüber anderen state-of-the-art VID-Ansätzen sowohl in Bezug auf Effektivität als auch Effizienz. Unser YOLOX-basiertes Modell erreicht vielversprechende Leistungsresultate (z.B., 87,5% AP50 bei mehr als 30 FPS auf dem ImageNet VID-Datensatz mit einer einzelnen 2080Ti-GPU), was es für groß angelegte oder Echtzeit-Anwendungen sehr attraktiv macht. Die Implementierung ist einfach; wir haben Demo-Codes und Modelle unter \url{https://github.com/YuHengsss/YOLOV} zur Verfügung gestellt.请注意,我在翻译中保持了原文的专业性和准确性,同时优化了句子结构以符合德语的表达习惯。此外,我保留了原文中的技术术语(如AP50、FPS、ImageNet VID-Datensatz)并直接翻译了人名和机构名称。希望这能满足您的需求!


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp