HyperAIHyperAI
vor 2 Monaten

Implizite Bewegungsverarbeitung für die Detektion von videogetarnten Objekten

Cheng, Xuelian ; Xiong, Huan ; Fan, Deng-Ping ; Zhong, Yiran ; Harandi, Mehrtash ; Drummond, Tom ; Ge, Zongyuan
Implizite Bewegungsverarbeitung für die Detektion von videogetarnten Objekten
Abstract

Wir schlagen einen neuen Framework für die Erkennung getarnter Objekte in Videos (VCOD) vor, der sowohl kurzfristige Dynamiken als auch langfristige zeitliche Konsistenzen nutzen kann, um getarnte Objekte aus Videobildern zu erkennen. Eine wesentliche Eigenschaft getarnter Objekte ist, dass sie in der Regel Muster aufweisen, die dem Hintergrund ähnlich sind und sie somit in stehenden Bildern schwer zu identifizieren machen. Daher wird die effektive Behandlung zeitlicher Dynamiken in Videos zum Schlüssel für die VCOD-Aufgabe, da sich getarnte Objekte beim Bewegen bemerkbar machen. Aktuelle VCOD-Methoden verwenden jedoch oft Homographien oder optische Flüsse zur Darstellung von Bewegungen, wobei sich das Erkennungsfehler sowohl aus dem Fehler der Bewegungsschätzung als auch aus dem Fehler der Segmentierung akkumulieren können. Im Gegensatz dazu vereint unsere Methode die Bewegungsschätzung und die Objektsegmentierung innerhalb eines einzigen Optimierungsframeworks. Insbesondere bauen wir ein dichtes Korrelationsvolumen auf, um Bewegungen zwischen benachbarten Frames implizit zu erfassen, und nutzen die endgültige Segmentierungsaufsicht, um die implizite Bewegungsschätzung und Segmentierung gemeinsam zu optimieren. Des Weiteren setzen wir einen räumlich-zeitlichen Transformer ein, um die kurzfristigen Vorhersagen zu verfeinern und so die zeitliche Konsistenz innerhalb einer Videosequenz sicherzustellen. Ausführliche Experimente an VCOD-Benchmarks zeigen die architektonische Effektivität unseres Ansatzes. Wir stellen außerdem eine groß angelegte VCOD-Datensammlung namens MoCA-Mask bereit, die pixelgenaue handgefertigte Grundwahrheitsmasken enthält, und erstellen eine umfassende VCOD-Benchmark mit früheren Methoden, um Forschungen in dieser Richtung zu fördern.Datensatz-Link: https://xueliancheng.github.io/SLT-Net-project.

Implizite Bewegungsverarbeitung für die Detektion von videogetarnten Objekten | Neueste Forschungsarbeiten | HyperAI