HyperAIHyperAI
vor 17 Tagen

Spatio-temporale lernbare Vorschläge für die end-to-end Video-Objektdetektion

Khurram Azeem Hashmi, Didier Stricker, Muhammamd Zeshan Afzal
Spatio-temporale lernbare Vorschläge für die end-to-end Video-Objektdetektion
Abstract

Diese Arbeit präsentiert die neuartige Idee, Objektvorschläge durch Ausnutzung zeitlicher Informationen für die Videoobjektdetektion zu generieren. Die Merkmalsaggregation in modernen regionbasierten Videoobjektdetektoren beruht stark auf gelernten Vorschlägen, die von einem einzelframebasierten RPN (Region Proposal Network) erzeugt werden. Dies führt unweigerlich zu zusätzlichen Komponenten wie NMS (Non-Maximum Suppression) und erzeugt unzuverlässige Vorschläge auf niedrigqualitativen Frames. Um diese Einschränkungen zu überwinden, stellen wir SparseVOD vor – einen neuartigen Videoobjektdetektionspipeline, der Sparse R-CNN nutzt, um zeitliche Informationen effektiv auszunutzen. Insbesondere integrieren wir zwei Module in den dynamischen Kopf von Sparse R-CNN. Erstens wird der Temporal Feature Extraction-Modul basierend auf der Temporal RoI Align-Operation hinzugefügt, um RoI-Vorschlagsmerkmale zu extrahieren. Zweitens, motiviert durch die semantische Aggregation auf Sequenzebene, führen wir den attention-gesteuerten Semantic Proposal Feature Aggregation-Modul ein, um die Objektmerkmalsrepräsentation vor der Detektion zu verbessern. Die vorgeschlagene SparseVOD reduziert wirksam den Aufwand komplexer Nachverarbeitungsmethoden und ermöglicht eine vollständig end-to-end trainierbare Gesamtpipeline. Umfangreiche Experimente zeigen, dass unsere Methode die Einzelbild-Sparse R-CNN um 8 % bis 9 % in mAP signifikant verbessert. Darüber hinaus erreicht SparseVOD mit einem ResNet-50-Backbone eine state-of-the-art mAP von 80,3 % auf dem ImageNet VID-Datensatz und übertrifft bestehende, auf Vorschlägen basierende Methoden bei steigenden IoU-Schwellenwerten (IoU > 0,5) deutlich.

Spatio-temporale lernbare Vorschläge für die end-to-end Video-Objektdetektion | Neueste Forschungsarbeiten | HyperAI