HyperAIHyperAI

Command Palette

Search for a command to run...

FuseFormer: Die Fusion feingranulärer Informationen in Transformers für Video-Inpainting

Rui Liu†∗ Hanming Deng‡∗ Yangyi Huang‡§∗ Xiaoyu Shi† Lewei Lu‡ Wenxiu Sun‡# Xiaogang Wang† Jifeng Dai‡ Hongsheng Li†#

Zusammenfassung

Der Transformer, als eine starke und flexible Architektur zur Modellierung von langen Abhängigkeiten, wurde bereits weitreichend in visuellen Aufgaben untersucht. Bei der Anwendung auf Video-Inpainting, das eine feingranulare Darstellung erfordert, leiden jedoch bestehende Methoden noch daran, dass sie unscharfe Kanten in den Details produzieren, aufgrund der harten Patch-Trennung. Hiermit zielen wir darauf ab, dieses Problem durch die Einführung von FuseFormer zu lösen, einem Transformer-Modell für Video-Inpainting, das auf basis neuer Soft-Split- und Soft-Composition-Operationen eine feingranulare Merkmalsfusion durchführt. Die Soft-Split teilt die Merkmalskarte in viele Patches mit einem vorgegebenen Überlappungsintervall. Im Gegensatz dazu verbindet die Soft-Composition verschiedene Patches zu einer vollständigen Merkmalskarte, wobei die Pixel in den überlappenden Bereichen summiert werden. Diese beiden Module werden zunächst bei der Tokenisierung vor den Transformer-Layern und bei der De-Tokenisierung nach den Transformer-Layern eingesetzt, um eine effektive Zuordnung zwischen Tokens und Merkmalen zu gewährleisten. Dadurch wird die Informationsinteraktion auf Sub-Patch-Ebene ermöglicht, was zu einer effektiveren Merkmalsverbreitung zwischen benachbarten Patches führt und es ermöglicht, lebendige Inhalte für die Lochbereiche in Videos zu synthetisieren. Darüber hinaus integrieren wir in FuseFormer sorgfältig die Soft-Composition und Soft-Split in das Feed-Forward-Netzwerk, wodurch 1D-lineare Schichten die Fähigkeit erhalten, 2D-Strukturen zu modellieren. Die Fähigkeit zur Merkmalsfusion auf Sub-Patch-Ebene wird dadurch weiter verbessert. In quantitativen und qualitativen Bewertungen übertrifft unser vorgeschlagenes FuseFormer die bislang besten Methoden. Wir führen auch eine detaillierte Analyse durch, um seine Überlegenheit zu prüfen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FuseFormer: Die Fusion feingranulärer Informationen in Transformers für Video-Inpainting | Paper | HyperAI