HyperAI

Abstract

Wir präsentieren eine neue Netzarchitektur, die in der Lage ist, räumlich-zeitliche Informationen in Videos zu nutzen, um die Genauigkeit der Objekterkennung zu verbessern. Zunächst werden Box-Features durch Verknüpfung von Vorschlägen, die aus derselben Anchor-Box in benachbarten Frames stammen, assoziiert und aggregiert. Anschließend entwickeln wir ein neues Aufmerksamkeitsmodul, das kurzfristig verbesserte Box-Features aggregiert, um langfristige räumlich-zeitliche Informationen auszunutzen. Dieses Modul nutzt erstmals geometrische Merkmale über längere Zeiträume im Bereich der Video-Objekterkennung. Schließlich wird ein räumlich-zeitliches Doppelkopf-Modul mit räumlichen Informationen aus dem Referenzframe sowie aggregierten Informationen, die sowohl kurz- als auch langfristigen zeitlichen Kontext berücksichtigen, gefüttert. Wir haben unsere Methode an fünf Datensätzen zur Video-Objekterkennung mit sehr unterschiedlichen Eigenschaften getestet, um deren Robustheit in einer Vielzahl von Szenarien zu demonstrieren. Nicht-parametrische statistische Tests zeigen, dass unser Ansatz die aktuell besten Verfahren übertrifft. Der Quellcode ist unter https://github.com/daniel-cores/SLTnet verfügbar.

Benchmark	Methodik	Metriken
video-object-detection-on-imagenet-vid	SLTnet FPN-X101	MAP : 82.4
video-object-detection-on-usc-grad-stddb	SLTnet FPN-X101	AP: 16.6 AP 0.5: 44.9

Benchmark

Methodik

Metriken

video-object-detection-on-imagenet-vid

SLTnet FPN-X101

MAP : 82.4

video-object-detection-on-usc-grad-stddb

SLTnet FPN-X101

AP: 16.6

AP 0.5: 44.9

Kurzfristige Anchor-Verknüpfung und langfristige selbstgeleitete Aufmerksamkeit für die Video-Objekterkennung

{Manuel Mucientes Víctor M Brea Daniel Cores}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Kurzfristige Anchor-Verknüpfung und langfristige selbstgeleitete Aufmerksamkeit für die Video-Objekterkennung

{Manuel Mucientes Víctor M Brea Daniel Cores}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters