HyperAIHyperAI
vor 18 Tagen

Kurzfristige Anchor-Verknüpfung und langfristige selbstgeleitete Aufmerksamkeit für die Video-Objekterkennung

{Manuel Mucientes, Víctor M Brea, Daniel Cores}
Abstract

Wir präsentieren eine neue Netzarchitektur, die in der Lage ist, räumlich-zeitliche Informationen in Videos zu nutzen, um die Genauigkeit der Objekterkennung zu verbessern. Zunächst werden Box-Features durch Verknüpfung von Vorschlägen, die aus derselben Anchor-Box in benachbarten Frames stammen, assoziiert und aggregiert. Anschließend entwickeln wir ein neues Aufmerksamkeitsmodul, das kurzfristig verbesserte Box-Features aggregiert, um langfristige räumlich-zeitliche Informationen auszunutzen. Dieses Modul nutzt erstmals geometrische Merkmale über längere Zeiträume im Bereich der Video-Objekterkennung. Schließlich wird ein räumlich-zeitliches Doppelkopf-Modul mit räumlichen Informationen aus dem Referenzframe sowie aggregierten Informationen, die sowohl kurz- als auch langfristigen zeitlichen Kontext berücksichtigen, gefüttert. Wir haben unsere Methode an fünf Datensätzen zur Video-Objekterkennung mit sehr unterschiedlichen Eigenschaften getestet, um deren Robustheit in einer Vielzahl von Szenarien zu demonstrieren. Nicht-parametrische statistische Tests zeigen, dass unser Ansatz die aktuell besten Verfahren übertrifft. Der Quellcode ist unter https://github.com/daniel-cores/SLTnet verfügbar.