HyperAIHyperAI
vor 2 Monaten

FuseFormer: Die Fusion feingranulärer Informationen in Transformers für Video-Inpainting

Rui Liu; Hanming Deng; Yangyi Huang; Xiaoyu Shi; Lewei Lu; Wenxiu Sun; Xiaogang Wang; Jifeng Dai; Hongsheng Li
FuseFormer: Die Fusion feingranulärer Informationen in Transformers für Video-Inpainting
Abstract

Der Transformer, als eine starke und flexible Architektur zur Modellierung von langen Abhängigkeiten, wurde bereits weitreichend in visuellen Aufgaben untersucht. Bei der Anwendung auf Video-Inpainting, das eine feingranulare Darstellung erfordert, leiden jedoch bestehende Methoden noch daran, dass sie unscharfe Kanten in den Details produzieren, aufgrund der harten Patch-Trennung. Hiermit zielen wir darauf ab, dieses Problem durch die Einführung von FuseFormer zu lösen, einem Transformer-Modell für Video-Inpainting, das auf basis neuer Soft-Split- und Soft-Composition-Operationen eine feingranulare Merkmalsfusion durchführt. Die Soft-Split teilt die Merkmalskarte in viele Patches mit einem vorgegebenen Überlappungsintervall. Im Gegensatz dazu verbindet die Soft-Composition verschiedene Patches zu einer vollständigen Merkmalskarte, wobei die Pixel in den überlappenden Bereichen summiert werden. Diese beiden Module werden zunächst bei der Tokenisierung vor den Transformer-Layern und bei der De-Tokenisierung nach den Transformer-Layern eingesetzt, um eine effektive Zuordnung zwischen Tokens und Merkmalen zu gewährleisten. Dadurch wird die Informationsinteraktion auf Sub-Patch-Ebene ermöglicht, was zu einer effektiveren Merkmalsverbreitung zwischen benachbarten Patches führt und es ermöglicht, lebendige Inhalte für die Lochbereiche in Videos zu synthetisieren. Darüber hinaus integrieren wir in FuseFormer sorgfältig die Soft-Composition und Soft-Split in das Feed-Forward-Netzwerk, wodurch 1D-lineare Schichten die Fähigkeit erhalten, 2D-Strukturen zu modellieren. Die Fähigkeit zur Merkmalsfusion auf Sub-Patch-Ebene wird dadurch weiter verbessert. In quantitativen und qualitativen Bewertungen übertrifft unser vorgeschlagenes FuseFormer die bislang besten Methoden. Wir führen auch eine detaillierte Analyse durch, um seine Überlegenheit zu prüfen.

FuseFormer: Die Fusion feingranulärer Informationen in Transformers für Video-Inpainting | Neueste Forschungsarbeiten | HyperAI