HyperAIHyperAI
vor 2 Monaten

Praktische Video-Objekterkennung durch Merkmalsauswahl und -aggregation

Yuheng Shi; Tong Zhang; Xiaojie Guo
Praktische Video-Objekterkennung durch Merkmalsauswahl und -aggregation
Abstract

Im Vergleich zur Objekterkennung in Stillbildern muss die Video-Objekterkennung (VOD) besonders die hohe Variation des Objektaspekts über mehrere Frames hinweg und die vielfältige Verschlechterung in einigen Frames berücksichtigen. Grundsätzlich kann die Erkennung in einem bestimmten Frame eines Videos von Informationen in anderen Frames profitieren. Daher ist es entscheidend, wie man effektiv Merkmale aus verschiedenen Frames aggregiert. Die meisten modernen Aggregationsmethoden sind für zweistufige Detektoren angepasst und leiden aufgrund ihrer zweistufigen Natur unter hohen Rechenkosten. Andererseits haben einstufige Detektoren trotz kontinuierlicher Fortschritte bei der Verarbeitung von statischen Bildern ihre Anwendbarkeit für VOD noch nicht ausreichend untersucht. Um die oben genannten Probleme zu lösen, entwickelt diese Studie eine sehr einfache, aber dennoch mächtige Strategie zur Merkmalsauswahl und -aggregation, die eine erhebliche Genauigkeitssteigerung bei geringfügigen Rechenkosten erreicht. Konkreter gesagt, um die enorme Berechnungs- und Speicherauslastung durch die dichte Vorhersageeigenschaft von einstufigen Objektdetektoren zu reduzieren, kondensieren wir zunächst Kandidatenmerkmale aus dichten Vorhersagemaps. Danach wird das Verhältnis zwischen einem Ziel-Frame und seinen Referenzframes evaluiert, um die Aggregation zu steuern. Umfangreiche Experimente und Abstraktionsstudien wurden durchgeführt, um die Effizienz unserer Designentscheidungen zu bestätigen und ihren Vorteil gegenüber anderen state-of-the-art-VOD-Methoden sowohl in Bezug auf Effektivität als auch Effizienz zu demonstrieren. Bemerkenswerterweise erreicht unser Modell eine neue Rekordleistung, nämlich 92,9 % AP50 bei mehr als 30 FPS auf dem ImageNet VID-Datensatz mit einer einzelnen 3090 GPU, was es zu einer attraktiven Option für groß angelegte oder Echtzeitanwendungen macht. Die Implementierung ist einfach und steht unter \url{https://github.com/YuHengsss/YOLOV} zur Verfügung.请注意,这里有一些小的调整以适应德语的表达习惯,例如将“one-stage detectors”翻译为“einstufige Detektoren”,将“two-stage detectors”翻译为“zweistufige Detektoren”。同时,“ImageNet VID dataset”被直接保留,因为这是国际上广泛使用的数据集名称。此外,“a new record performance”被翻译为“eine neue Rekordleistung”,以保持原文的意思并符合德语的表述方式。

Praktische Video-Objekterkennung durch Merkmalsauswahl und -aggregation | Neueste Forschungsarbeiten | HyperAI