HyperAIHyperAI
vor 18 Tagen

DiffusionVID: Objektkästen mit raumzeitlicher Bedingung entstören für die Videoobjekterkennung

{Ki-Seok Chung, Si-Dong Roh}
Abstract

Mehrere bestehende Objektdetektoren für Einzelbilder leiden unter Bildverschlechterungen in Videos, wie Bewegungsunschärfe, Kameratiefenunschärfe und partieller Verdeckung. Wir präsentieren DiffusionVID, einen auf Diffusionsmodellen basierenden Objektdetektor für Videos, der räumlich-zeitliche Bedingungen nutzt. Inspiriert durch Diffusionsmodelle verfeinert DiffusionVID zufällige Rauschboxen, um die ursprünglichen Objektboxen in einer Videosequenz zu rekonstruieren. Um die Box effektiv aus den beeinträchtigten Bildern in Videos zu verfeinern, verwenden wir drei neuartige Ansätze: Kaskadenverfeinerung, dynamische Core-Set-Bedingung und lokale Batch-Verfeinerung. Die Architektur der Kaskadenverfeinerung sammelt Informationen effektiv aus Objektregionen, während die dynamische Core-Set-Bedingung die Rauschunterdrückungsqualität durch adaptiven bedingten Leitfaden basierend auf dem räumlich-zeitlichen Core-Set weiter verbessert. Die lokale Batch-Verfeinerung beschleunigt die Verfeinerung erheblich durch Ausnutzung der Parallelität der GPU. Auf dem Standard- und weit verbreiteten ImageNet-VID-Benchmark erreicht unser DiffusionVID mit den Backbone-Architekturen ResNet-101 und Swin-Base jeweils 86,9 mAP bei 46,6 FPS und 92,4 mAP bei 27,0 FPS, was eine state-of-the-art-Leistung darstellt. Soweit uns bekannt ist, handelt es sich hierbei um den ersten auf einem Diffusionsmodell basierenden Objektdetektor für Videos. Der Quellcode und die Modelle sind unter https://github.com/sdroh1027/DiffusionVID verfügbar.