HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Kurzfristige Anchor-Verknüpfung und langfristige selbstgeleitete Aufmerksamkeit für die Video-Objekterkennung

{Manuel Mucientes Víctor M Brea Daniel Cores}

Abstract

Wir präsentieren eine neue Netzarchitektur, die in der Lage ist, räumlich-zeitliche Informationen in Videos zu nutzen, um die Genauigkeit der Objekterkennung zu verbessern. Zunächst werden Box-Features durch Verknüpfung von Vorschlägen, die aus derselben Anchor-Box in benachbarten Frames stammen, assoziiert und aggregiert. Anschließend entwickeln wir ein neues Aufmerksamkeitsmodul, das kurzfristig verbesserte Box-Features aggregiert, um langfristige räumlich-zeitliche Informationen auszunutzen. Dieses Modul nutzt erstmals geometrische Merkmale über längere Zeiträume im Bereich der Video-Objekterkennung. Schließlich wird ein räumlich-zeitliches Doppelkopf-Modul mit räumlichen Informationen aus dem Referenzframe sowie aggregierten Informationen, die sowohl kurz- als auch langfristigen zeitlichen Kontext berücksichtigen, gefüttert. Wir haben unsere Methode an fünf Datensätzen zur Video-Objekterkennung mit sehr unterschiedlichen Eigenschaften getestet, um deren Robustheit in einer Vielzahl von Szenarien zu demonstrieren. Nicht-parametrische statistische Tests zeigen, dass unser Ansatz die aktuell besten Verfahren übertrifft. Der Quellcode ist unter https://github.com/daniel-cores/SLTnet verfügbar.

Benchmarks

BenchmarkMethodikMetriken
video-object-detection-on-imagenet-vidSLTnet FPN-X101
MAP : 82.4
video-object-detection-on-usc-grad-stddbSLTnet FPN-X101
AP: 16.6
AP 0.5: 44.9

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kurzfristige Anchor-Verknüpfung und langfristige selbstgeleitete Aufmerksamkeit für die Video-Objekterkennung | Forschungsarbeiten | HyperAI