Kurzfristige Anchor-Verknüpfung und langfristige selbstgeleitete Aufmerksamkeit für die Video-Objekterkennung
{Manuel Mucientes Víctor M Brea Daniel Cores}
Abstract
Wir präsentieren eine neue Netzarchitektur, die in der Lage ist, räumlich-zeitliche Informationen in Videos zu nutzen, um die Genauigkeit der Objekterkennung zu verbessern. Zunächst werden Box-Features durch Verknüpfung von Vorschlägen, die aus derselben Anchor-Box in benachbarten Frames stammen, assoziiert und aggregiert. Anschließend entwickeln wir ein neues Aufmerksamkeitsmodul, das kurzfristig verbesserte Box-Features aggregiert, um langfristige räumlich-zeitliche Informationen auszunutzen. Dieses Modul nutzt erstmals geometrische Merkmale über längere Zeiträume im Bereich der Video-Objekterkennung. Schließlich wird ein räumlich-zeitliches Doppelkopf-Modul mit räumlichen Informationen aus dem Referenzframe sowie aggregierten Informationen, die sowohl kurz- als auch langfristigen zeitlichen Kontext berücksichtigen, gefüttert. Wir haben unsere Methode an fünf Datensätzen zur Video-Objekterkennung mit sehr unterschiedlichen Eigenschaften getestet, um deren Robustheit in einer Vielzahl von Szenarien zu demonstrieren. Nicht-parametrische statistische Tests zeigen, dass unser Ansatz die aktuell besten Verfahren übertrifft. Der Quellcode ist unter https://github.com/daniel-cores/SLTnet verfügbar.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| video-object-detection-on-imagenet-vid | SLTnet FPN-X101 | MAP : 82.4 |
| video-object-detection-on-usc-grad-stddb | SLTnet FPN-X101 | AP: 16.6 AP 0.5: 44.9 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.