Objekte verschwinden nicht: Video-Objekterkennung durch Vorhersage der Einzelbild-Objektlokalisierung

Objekte in Videos werden in der Regel durch kontinuierliche, glatte Bewegung charakterisiert. Wir nutzen diese kontinuierliche, glatte Bewegung auf drei Arten:1) Verbesserte Genauigkeit durch die Nutzung der Objektbewegung als zusätzliche Quelle der Überwachung, die wir durch die Vorhersage von Objektstandorten aus einem statischen Schlüsselbild erhalten.2) Verbesserte Effizienz durch die Durchführung kostenintensiver Merkmalsberechnungen nur auf einem kleinen Teil aller Frames. Da benachbarte Videoframes oft redundant sind, berechnen wir Merkmale nur für ein einzelnes statisches Schlüsselbild und prognostizieren die Objektstandorte in den nachfolgenden Frames.3) Reduzierte Annotierungskosten, bei denen wir nur das Schlüsselbild annotieren und eine glatte Pseudobewegung zwischen den Schlüsselbildern verwenden.Wir zeigen Rechen-effiziente, annotierungs-effiziente und verbesserte mittlere Durchschnittsgenauigkeit (mean average precision) im Vergleich zum Stand der Technik an vier Datensätzen: ImageNet VID, EPIC KITCHENS-55, YouTube-BoundingBoxes und Waymo Open Dataset. Unser Quellcode ist unter https://github.com/L-KID/Videoobject-detection-by-location-anticipation verfügbar.