HyperAIHyperAI
vor 2 Monaten

Lernfähiges Gated Temporal Shift Modul für tiefes Video-Inpainting

Ya-Liang Chang; Zhe Yu Liu; Kuan-Ying Lee; Winston Hsu
Lernfähiges Gated Temporal Shift Modul für tiefes Video-Inpainting
Abstract

Die effiziente Nutzung zeitlicher Informationen zur konsistenten Wiederherstellung von Videos ist das Hauptproblem bei Video-Inpainting-Aufgaben. Konventionelle 2D-CNNs haben gute Ergebnisse bei der Bildinpainting erreicht, führen aber oft zu zeitlich inkonsistenten Ergebnissen, bei denen die Bilder flackern, wenn sie auf Videos angewendet werden (siehe https://www.youtube.com/watch?v=87Vh1HDBjD0&list=PLPoVtv-xp_dL5uckIzz1PKwNjg1yI0I94&index=1). 3D-CNNs können zeitliche Informationen erfassen, sind jedoch rechenaufwendig und schwer zu trainieren. In dieser Arbeit stellen wir ein neues Modul vor, das als lernfähiges gattergesteuertes zeitliches Verschiebungsmodul (Learnable Gated Temporal Shift Module, LGTSM) bezeichnet wird und in Video-Inpainting-Modellen eingesetzt werden kann, um beliebige Videomaschen ohne zusätzliche Parameter aus 3D-Faltungen effektiv zu bearbeiten. Das LGTSM ist so konzipiert, dass 2D-Faltungen die benachbarten Frames effizienter nutzen können, was für Video-Inpainting entscheidend ist. Insbesondere lernt das LGTSM in jeder Schicht, einige Kanäle zu seinen zeitlichen Nachbarn zu verschieben, sodass 2D-Faltungen verbessert werden können, um zeitliche Informationen zu verarbeiten. Gleichzeitig wird eine gattergesteuerte Faltung auf die Schicht angewendet, um die maskierten Bereiche zu identifizieren, die für konventionelle Faltungen störend sind. Auf den Datensätzen FaceForensics und Free-form Video Inpainting (FVI) erzielt unser Modell mit lediglich 33 % der Parameter und Inferenzzeit state-of-the-art-Ergebnisse.

Lernfähiges Gated Temporal Shift Modul für tiefes Video-Inpainting | Neueste Forschungsarbeiten | HyperAI