RN-VID: Eine Merkmalsfusionsarchitektur für die Videoobjekterkennung

Aufeinanderfolgende Frames in einem Video sind äußerst redundant. Daher ist es bei der Aufgabe der Video-Objektdetektion sehr ineffizient, Einzelbild-Detektoren auf jedem Frame unabhängig voneinander auszuführen, ohne Informationen aus vorherigen Frames zu nutzen. Aus diesem Anliegen heraus stellen wir RN-VID (kurz für RetinaNet-VIDeo) einen neuartigen Ansatz für die Video-Objektdetektion vor. Unsere Beiträge sind zweifach. Erstens schlagen wir eine neue Architektur vor, die die Nutzung von Informationen aus benachbarten Frames ermöglicht, um die Merkmalskarten zu verbessern. Zweitens präsentieren wir ein neuartiges Modul zur Fusion von Merkmalskarten gleicher Dimension durch Umordnung der Kanäle und 1×1-Konvolutionen. Wir zeigen anschließend, dass RN-VID eine höhere mittlere Genauigkeit (mAP) im Vergleich zu entsprechenden Einzelbild-Detektoren erreicht, wobei während der Inferenz nur ein geringfügiger zusätzlicher Aufwand entsteht.