HyperAIHyperAI

Command Palette

Search for a command to run...

RN-VID: Eine Merkmalsfusionsarchitektur für die Videoobjekterkennung

Hughes Perreault Maguelonne Héritier Pierre Gravel Guillaume-Alexandre Bilodeau Nicolas Saunier

Zusammenfassung

Aufeinanderfolgende Frames in einem Video sind äußerst redundant. Daher ist es bei der Aufgabe der Video-Objektdetektion sehr ineffizient, Einzelbild-Detektoren auf jedem Frame unabhängig voneinander auszuführen, ohne Informationen aus vorherigen Frames zu nutzen. Aus diesem Anliegen heraus stellen wir RN-VID (kurz für RetinaNet-VIDeo) einen neuartigen Ansatz für die Video-Objektdetektion vor. Unsere Beiträge sind zweifach. Erstens schlagen wir eine neue Architektur vor, die die Nutzung von Informationen aus benachbarten Frames ermöglicht, um die Merkmalskarten zu verbessern. Zweitens präsentieren wir ein neuartiges Modul zur Fusion von Merkmalskarten gleicher Dimension durch Umordnung der Kanäle und 1×1-Konvolutionen. Wir zeigen anschließend, dass RN-VID eine höhere mittlere Genauigkeit (mAP) im Vergleich zu entsprechenden Einzelbild-Detektoren erreicht, wobei während der Inferenz nur ein geringfügiger zusätzlicher Aufwand entsteht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp