Verwendung von Generativen Modellen zur Transformation von Statischen Bildern für die Erkennung von Auffälligen Objekten in Videos

In vielen Videoverarbeitungsaufgaben ist die Nutzung umfangreicher Bilddatensätze eine gängige Strategie, da Bildinformationen häufiger verfügbar sind und umfassende Wissensübertragung erleichtern. Ein typischer Ansatz zur Simulation von Videos aus statischen Bildern besteht darin, räumliche Transformationen wie affine Transformationen und Splinewarping anzuwenden, um Sequenzen zu erzeugen, die den zeitlichen Verlauf nachahmen. Allerdings versagen diese grundlegenden Bild-zu-Video-Techniken bei Aufgaben wie der Detektion von auffälligen Objekten in Videos, bei denen sowohl Erscheinungsform als auch Bewegungshinweise entscheidend sind. Diese Techniken sind nicht in der Lage, realistische optische Flüsse zu erzeugen, die die unabhängigen Bewegungseigenschaften jedes Objekts erfassen. In dieser Studie zeigen wir, dass Bild-zu-Video-Diffusionsmodelle realistische Transformationen von statischen Bildern erzeugen können, während sie die kontextuellen Beziehungen zwischen den Bildkomponenten verstehen. Diese Fähigkeit ermöglicht es dem Modell, plausible optische Flüsse zu generieren, wobei die semantische Integrität gewahrt bleibt und gleichzeitig die unabhängige Bewegung der Szenelemente widergespiegelt wird. Durch diese Art der Erweiterung einzelner Bilder erstellen wir umfangreiche Bilddaten-Flusspaare, die das Modelltraining erheblich verbessern. Unser Ansatz erreicht den aktuellen Stand der Technik auf allen öffentlichen Benchmark-Datensätzen und übertrifft bestehende Methoden.