HyperAIHyperAI
vor 17 Tagen

FFAVOD: Feature Fusion Architektur für die Video-Objekterkennung

Hughes Perreault, Guillaume-Alexandre Bilodeau, Nicolas Saunier, Maguelonne Héritier
FFAVOD: Feature Fusion Architektur für die Video-Objekterkennung
Abstract

Ein erheblicher Anteil an Redundanz existiert zwischen aufeinanderfolgenden Bildern eines Videos. Objektdetektoren erzeugen typischerweise Detektionen für jeweils ein einzelnes Bild und verfügen dabei nicht über die Fähigkeit, diese Redundanz zu nutzen. Gleichzeitig basieren viele Anwendungen der Objektdetektion auf Videos, beispielsweise intelligente Verkehrssysteme, Fahrerassistenzsysteme und Videoüberwachung. Unser Ansatz zielt darauf ab, die Ähnlichkeit zwischen Videobildern auszunutzen, um präzisere Detektionen zu erzielen. Wir stellen FFAVOD vor, abgeleitet von „Feature Fusion Architecture for Video Object Detection“. Zunächst führen wir eine neuartige Architektur für die Video-Objektdetektion ein, die es dem Netzwerk ermöglicht, Merkmalskarten zwischen benachbarten Frames zu teilen. Zweitens schlagen wir ein Merkmalsfusion-Modul vor, das lernt, Merkmalskarten zu kombinieren, um deren Qualität zu verbessern. Wir zeigen, dass die Verwendung der vorgeschlagenen Architektur zusammen mit dem Fusionsmodul die Leistung von drei Basis-Objektdetektoren auf zwei Objektdetektionsbenchmarks, die Sequenzen sich bewegender Verkehrsteilnehmer enthalten, verbessert. Zusätzlich schlagen wir eine Verbesserung des SpotNet-Attention-Moduls vor, um die Leistung weiter zu steigern. Mit unserer Architektur auf dem verbesserten SpotNet-Detektor erreichen wir die bisher beste Leistung auf dem öffentlichen Benchmark UA-DETRAC sowie auf dem UAVDT-Datensatz. Der Quellcode ist unter https://github.com/hu64/FFAVOD verfügbar.